Künstliche Intelligenz (KI) wird seit langem als vielversprechendes Instrument zur Unterstützung von Ärzten beim diagnostischen Urteilsvermögen angesehen. Neuere Studien ergeben, dass Large Language Model (LLM) wie Chat GPT in stark strukturierten und datenzentrierten Szenarien gut funktionieren. Sie scheitern aber oft an noch unklaren Problemen oder der Interpretation subtiler klinischer Hinweise.
ChatGPT kann Qualität von Diagnose verbessern
In einer in JAMA Network Open publizierten Studie (2024) wurden 50 in großen US-Kliniken tätige Ober- und Assistenzärzte verschiedener Fachbereiche jeweils sechs Fall-Vignetten zur Diagnose vorgelegt. Es gab drei Vergleichsgruppen: Ärzte, die ausschließlich traditionelle diagnostische Tools wie Literaturdatenbanken oder Online-Suchmaschinen benutzen durften; Ärzte, die zusätzlich ChatGPT als diagnostische Ressource zur Verfügung hatten. Und schließlich wurde in einer dritten Gruppe die Diagnose-Leistung eines KI-basierten Sprachmodells wie ChatGPT analysiert und mit jener der Ärzte verglichen. Gemessen wurde u.a. die Genauigkeit der Diagnose, die Begründung und die benötigte Zeit.
Das Ergebnis: Bei der Lösung der Fälle schnitten beide Gruppen der Ärzte mit durchschnittlich 75 Punkten ab. Es gab keinen signifikanten Unterschied, ob Ärzte ChatGPT als diagnostische Hilfe nutzten oder nicht. Die mit Abstand beste Diagnose lieferte ChatGPT ohne Ärzte mit durchschnittlich 90 Punkten.
Sollten wir also in Zukunft LLMs mehr vertrauen als Ärzten? Nein, sagen die Wissenschaftler. Ärzte seien weiterhin entscheidend, weil sie Faktoren wie die Anamnese, soziale Umstände und emotionale Aspekte berücksichtigen, die ein LLM nicht erfassen kann. Zudem war die Studie rein auf diagnostische Szenarien beschränkt. In der realen klinischen Praxis spielen auch Therapieplanung, Kommunikation mit Patienten und multidisziplinäre Zusammenarbeit eine Rolle.
Enorme Menge an Informationen führt nicht zwangsläufig zu besseren Diagnosen
Andere Studie ergeben deutlich schlechtere Ergebnisse für den Bot: Laut einer in Plos one veröffentlichte Studie (2024) konnte ChatGPT nur knapp die Hälfte (49%) der medizinischen Fälle richtig lösen. Das KI-basierte Sprachmodell zeigte Schwierigkeiten bei der Interpretation von Laborwerten und Bildern und übersah relevante Informationen. Die Studienautoren kommen zu dem Schluss, dass ChatGPT derzeit nicht als diagnostisches Werkzeug – weder von Ärzten noch von Patienten – eingesetzt werden sollte. Obwohl es auf einer enormen Menge an Informationen basiert, liefert es nicht zwangsläufig korrekte Informationen und kann Nutzer auf falsche Fährten führen und verunsichern. Selbst wenn der Chatbot in medizinischen Tests gut abschneidet, ist Vorsicht geboten, da ChatGPT nicht speziell für medizinische Zwecke entwickelt wurde.
Menschen schenken Chatbots zu viel Vertrauen
Große Erwartungen werden derzeit in die sprachlichen Fähigkeiten des Programms gesetzt. ChatGPT sei fähig, komplexe medizinische Fachsprache in kürzester Zeit für Laien verständlich zu machen. Womöglich könnte ChatGPT für die Verbesserung dieser wichtigen ärztlichen Fähigkeit in der Ausbildung eingesetzt werden, hoffen manche.
Experten bleiben jedoch skeptisch. Eine Gefahr beim Anwenden von ChatGPT besteht in der Vermenschlichung („Anthropomorphisierung“). Aufgrund der sprachlichen Kompetenz des Programms tendieren Menschen dazu, die Fähigkeiten des Chatbots zu überschätzen und dem Programm zu viel Vertrauen zu schenken. Zu schnell würden dem Programm unbewusst menschliche geistige Fähigkeiten zugeschrieben, sagt die Psychologin Ute Schmid vom Lehrstuhl für Kognitive Systeme der Universität Bamberg. Die Ausgabe von pseudo-akkuraten, vollständigen Antworten könne Nutzer dazu verleiten, sensible Informationen preiszugeben. „Blindes Vertrauen in eine Systemausgabe ist aber prinzipiell niemals angebracht.“, so die Psychologin (ChatGPT: Noch kein Allheilmittel, Deutsches Ärzteblatt 6/2023).
Fehlinformationen und Verzerrungen sind nicht auszuschließen
Ein weiteres fundamentales Problem ist die Verbreitung von Fehlinformationen. KI-Sprachmodelle basieren auf statistischen Mustern aus ihren Trainingsdaten. Enthalten diese Fehlinformationen, Voreingenommenheit (Bias) oder Verzerrungen, besteht die Gefahr, dass falsche Inhalte im medizinischen Kontext reproduziert werden.
Darüber hinaus können Sprachmodelle ihre Ergebnisse nicht selbst validieren und liefern aufgrund ihrer probabilistischen Natur unterschiedliche Ergebnisse bei identischen Eingaben, was zu inkonsistenten Antworten führt (PLOS one, 2024). Die Aufgabe ärztlicher Prüfung und Interpretation bleibt daher unverzichtbar.
Transparenz in der Entscheidungsfindung fehlt
Ein zusätzliches Hindernis in der Verwendung von KI-Sprachmodellen besteht in der fehlenden Transparenz. Nicht nur die Entscheidungsfindung von KI-Sprachmodellen ist technisch oft nicht nachvollziehbar (Bioethik aktuell, 09.12.2024). Auch nennt ChatGPT oft nicht die Quellen seiner Informationen. Außerdem kann nicht beurteilt werden, ob Limitierungen oder Verzerrungen bewusst in das Modell programmiert wurden, da ChatGPT einem privaten Unternehmen gehört.
Werden Chatbots im Gegensatz zu ChatGPT speziell für medizinische Zwecke entwickelt, können sie in der Diagnostik gut eingesetzt werden. Dazu zählt die in Österreich entwickelte Plattform Symptoma.com, eine KI-basierte Datenbank, die Symptome per Chat-Eingabe mit allen Krankheiten (etwa 20.000) verknüpfen kann. Mehrere Studien haben Symptomas hohe diagnostische Leistung bestätigt (Springer Nature, 2019).