Mensch oder Maschine – wer stellt die besseren Diagnosen? Fehler machen beide, aber unterschiedliche, lautet das Ergebnis einer aktuellen Untersuchung. Damit ergänzen sie sich hervorragend.
Mensch und Maschine ergänzen sich …
Diagnosefehler gehören zu den folgenschwersten Problemen im medizinischen Alltag. Immer häufiger wird Künstliche Intelligenz (KI) zur Diagnosefindung eingesetzt, darunter vor allem „Large Language Models“ (LLM) wie ChatGPT-4. Doch auch KI-Systeme können falsche Informationen generieren. Die gute Nachricht: Sie machen systematisch andere Fehler als Menschen, wie nun ein internationales Team systematisch untersucht hat.
Die Wissenschaftler unter der Leitung des Max-Planck-Instituts (MPI) für Bildungsforschung griffen auf Daten des Human Diagnosis Project zurück, in dem kurze Beschreibungen realitätsnaher Patientenbeschwerden und die zugehörigen korrekten Diagnosen bereitgestellt werden. Für die Studie wurden 2133 dieser klinischen Fallvignetten genutzt und die jeweiligen Diagnosen von medizinischen Fachkräften mit denen der fünf führenden KI-Modelle (Anthropic Claude 3 Opus, Google Gemini Pro 1.0, Meta Llama 2 70B, Mistral Large, OpenAI GPT-4) verglichen. Dabei simulierten die Forschenden verschiedene Diagnosekollektive: Einzelpersonen, menschliche Kollektive, KI-Modelle, Kollektive von KI-Modellen sowie gemischte Mensch-KI-Kollektive.
… auch bei ihren Fehlern
Wurden mehrere KI-Modelle kombiniert, erhöhte das die Diagnosequalität. Das KI-Kollektiv lag im Durchschnitt über dem Niveau von 85% der Menschen. Bei zahlreichen Fällen schnitten die Menschen jedoch besser ab.
Die Kombination aus menschlicher Expertise und KI-Modellen steigerte die Genauigkeit deutlich. Das galt auch dann, wenn es nicht um einfache Ja-Nein-Entscheidungen ging, sondern um komplexe diagnostische Fragestellungen. Am zuverlässigsten waren die Ergebnisse bei kollektiven Entscheidungen mehrerer Menschen und mehrere KI-Systeme.
Der Grund für die höhere Zuverlässigkeit: Mensch und KI machen systematisch unterschiedliche Fehler. Diese „Fehlerkomplementarität“ mache hybride Kollektive so leistungsstark, heißt es in einer Pressemitteilung des MPI.
Lassen sich die Ergebnisse auf die Praxis übertragen?
In der Studie wurden nur textbasierte Fallvignetten untersucht, keine echten Patienten in realen klinischen Situationen. Ob sich die Ergebnisse direkt auf die Praxis übertragen lassen, müssten Folgestudien zeigen. Zudem konzentrierte sich die Studie ausschließlich auf die Diagnose, nicht auf die Behandlung.
Quellen
- Zöller N, et al. Human-AI collectives most accurately diagnose clinical vignettes. Proc Natl Acad Sci U S A. 2025;122(24):e2426153122. doi:10.1073/pnas.2426153122
- Max-Planck-Institut für Bildungsforschung. Mensch-KI-Kollektive stellen die besseren medizinischen Diagnosen. Pressemitteilung vom 20. Juni 2025
Bildquelle
Have a nice day – stock.adobe