22.05.2023
Künstliche Intelligenz
ChatGPT besteht Prüfung für Radiologen
Autor: Wolfgang Kempkens, pte
Unsplash/National Cancer Institute
ChatGPT hat eine Prüfung der Radiological Society of North America bestanden und dabei 81 Prozent der Fragen richtig beantwortet. Einige der Antworten der KI beschreiben die Wissenschaftler jedoch als unlogisch oder ungenau.
ChatGPT hat eine Prüfung der Radiological Society of North America bestanden. "Die Verwendung großer Sprachmodule wie ChatGPT explodiert und wird noch zunehmen", so Prüfer Rajesh Bhayana, Radiologe am Toronto General Hospital. "Unsere Forschung gibt Aufschluss über die Leistung von ChatGPT im radiologischen Kontext und unterstreicht das unglaubliche Potenzial großer Sprachmodule sowie die derzeitigen Einschränkungen, die sie unzuverlässig machen." Das könne Gefahren mit sich bringen, denn ChatGPT und ähnliche Chatbots würden in Suchmaschinen wie Google und Bing integriert, die Ärzte und Patienten verwenden, um nach medizinischen Infos zu suchen, so Bhayana.
150 Multiple-Choice-Fragen
Das Team hat die ChatGPT-Version GPT-3.5 getestet, die derzeit am häufigsten verwendet wird. Die Prüfung bestand aus 150 Multiple-Choice-Fragen, die auf den Stil, den Inhalt und den Schwierigkeitsgrad der Prüfungen des Canadian Royal College und des American Board of Radiology abgestimmt waren. Dabei ging es um das Abrufen von Wissen und das Grundverständnis, um Anwendungen, Analysen und Synthesen sowie Beschreibungen der Bildgebungsbefunde, klinisches Management, Berechnung und Klassifikationen.
GPT-3.5 beantwortete 69 Prozent der Fragen richtig (104 von 150). Für ein Bestehen der Prüfung wären nach der Praxis des Royal College in Kanada 70 Prozent nötig gewesen. Das Modell schnitt bei Wissensfragen mit 84 Prozent richtigen Antworten (51 von 61) am besten ab, hatte aber Probleme mit Fragen, die das Denken höherer Ordnung betrafen (60 %, 53 von 89). Genauer gesagt, hatte die Software Probleme bei der Beschreibung der Bildgebungsbefunde (61 % richtig, 28 von 46), der Berechnung und Klassifizierung (25 %, zwei von acht) und der Anwendung von Konzepten (30 %, drei von zehn). Die schlechte Leistung bei Denkfragen höherer Ordnung ist wegen fehlender radiologiespezifischer Vorschulung nicht überraschend, so Bhayana.
Aktuelle Software machte es gut
Die Nachfolge-Software GPT-4, die im März 2023 in begrenzter Form für zahlende Nutzer freigegeben wurde, machte es besser: Sie bestand die Prüfung mit 81 Prozent richtigen Antworten. Insbesondere registrierten die Radiologen Verbesserungen bei anspruchsvolleren Aufgaben. "Wir waren überrascht von den großenteils genauen und selbstbewussten Antworten von ChatGPT auf einige herausfordernde radiologische Fragen, aber dann ebenso überrascht von einigen sehr unlogischen und ungenauen Behauptungen. Es ist gefährlich, sich nur auf ChatGPT zu verlassen", so Bhayanas Fazit.
Künstliche Intelligenz
Microsofts Semantic Kernel eine Million Mal heruntergeladen
Der Microsoft Semantic Kernel stellt eine Verbindung zwischen Code und KI her und scheint ein voller Erfolg. Die Entwicklergemeinde hat die damit verbundenen Möglichkeiten akzeptiert.
>>
Studie
KI ist emotionaler als die meisten Menschen
Trotz der vielen nützlichen Möglichkeiten mindert laut einer Studie immer noch Misstrauen die Effektivität von Anwendungen der Künstlichen Intelligenz.
>>
Konferenz
Wird generative KI Software-Ingenieure ersetzen? DWX-Keynote
Auf der Developer Week '24 wird Professor Alexander Pretschner von der TU München eine der Keynotes halten. Er klärt auf, ob Ihr Job in Gefahr ist.
>>
Bad News
Game macht Fake News spielerisch erkennbar
Wissenschaftler der Universität Uppsala haben ihr Online-Spiel "Bad News" erfolgreich an 516 Schülern getestet. Es soll helfen, manipulative Techniken in Social-Media-Posts zu erkennen.
>>