ChatGPT hat eine Prüfung der Radiological Society of North America bestanden. „Die Verwendung großer Sprachmodule wie ChatGPT explodiert und wird noch zunehmen“, so Prüfer Rajesh Bhayana, Radiologe am Toronto General Hospital.
„Unsere Forschung gibt Aufschluss über die Leistung von ChatGPT im radiologischen Kontext und unterstreicht das unglaubliche Potenzial großer Sprachmodule sowie die derzeitigen Einschränkungen, die es unzuverlässig machen.“ Das könne Gefahren mit sich bringen, denn ChatGPT und ähnliche Chatbots würden in Suchmaschinen wie Google und Bing integriert, die Ärzte und Patienten verwenden, um nach medizinischen Infos zu suchen, so Bhayana.
150 Multiple-Choice-Fragen
Das Team hat die ChatGPT-Version GPT-3.5 getestet, die derzeit am häufigsten verwendet wird. Die Prüfung bestand aus 150 Multiple-Choice-Fragen, die auf den Stil, den Inhalt und den Schwierigkeitsgrad der Prüfungen des Canadian Royal College und des American Board of Radiology abgestimmt waren. Dabei ging es um das Abrufen von Wissen und das Grundverständnis, um Anwendungen, Analysen und Synthesen sowie Beschreibungen der Bildgebungsbefunde, klinisches Management, Berechnung und Klassifikationen.
GPT-3.5 beantwortete 69 Prozent der Fragen richtig (104 von 150). Für ein Bestehen der Prüfung wären nach der Praxis des Royal College in Kanada 70 Prozent nötig gewesen. Das Modell schnitt bei Wissensfragen mit 84 Prozent richtigen Antworten (51 von 61) am besten ab, hatte aber Probleme mit Fragen, die das Denken höherer Ordnung betrafen (60 Prozent, 53 von 89). Genauer gesagt, hatte die Software Probleme bei der Beschreibung der Bildgebungsbefunde (61 Prozent richtig, 28 von 46), der Berechnung und Klassifizierung (25 Prozent, zwei von acht) und der Anwendung von Konzepten (30 Prozent, drei von zehn). Die schlechte Leistung bei Denkfragen höherer Ordnung ist wegen fehlender radiologiespezifischer Vorschulung nicht überraschend, so Bhayana.
Aktuelle Software machte es gut
Die Nachfolge-Software GPT-4, die im März 2023 in begrenzter Form für zahlende Nutzer freigegeben wurde, machte es besser: Sie bestand die Prüfung mit 81 Prozent richtigen Antworten. Insbesondere registrierten die Radiologen Verbesserungen bei anspruchsvolleren Aufgaben. „Wir waren überrascht von den großenteils genauen und selbstbewussten Antworten von ChatGPT auf einige herausfordernde radiologische Fragen, aber dann ebenso überrascht von einigen sehr unlogischen und ungenauen Behauptungen. Es ist gefährlich, sich nur auf ChatGPT zu verlassen“, so Bhayanas Fazit.
www.pressetext.com