Können Chatbots dement werden? Um diese Frage zu beantworten, untersuchten Forscher aus England und Israel die kognitiven Fähigkeiten großer Sprachmodelle. Ihr Fazit: Die meisten von ihnen weisen kognitive Beeinträchtigungen auf – je älter, desto mehr. Damit werden sie wohl so schnell keinen Arzt ersetzen können.
Age against the machine
In der Weihnachtsausgabe des British Medical Journals (BMJ) geht es diesmal unter anderem um kognitive Fähigkeiten und Anzeichen kognitiven Verfalls der führenden großen Sprachmodelle. Sprich: Können Chatbots dement werden? Dieser Test stand, so die Autoren einer Querschnittsstudie, nämlich noch aus.
Wenn wir uns bei der medizinischen Diagnose und Behandlung auf [Sprachmodelle] verlassen wollen, müssen wir ihre Anfälligkeit für diese sehr menschlichen Beeinträchtigungen untersuchen.
Also ließen die Autoren verschiedene öffentlich verfügbare Sprachmodelle (Chatbots) den Montreal Cognitive Assessment (MoCA Version 8.1) und weitere Tests durchführen. Der MoCA deckt die Bereiche Kurzzeit- und Arbeitsgedächtnis, Merkfähigkeit, Wortflüssigkeit, Abstraktionsvermögen, exekutive Funktionen, Visuokonstruktion, Aufmerksamkeit und Orientierung ab. Maximal können 30 Punkte erreicht werden, Werte ab 26 gelten als normal. Die Fragen waren mit denen für menschliche Patienten identisch.
Zusätzliche Tests umfassten die Navon-Figur, das Bild vom Keksdiebstahl der „Boston Diagnostic Aphasia Examination“, die Poppelreuter-Figur und den Stroop-Test. Bei Letzterem müssen die Probanden die richtige Farbe eines Farbworts benennen: Die Benennungszeiten sind i.d.R. höher bei inkongruenter Bedingung (wenn das Farbwort „Grün“ in roter Farbe gedruckt ist) als bei kongruenter Bedingung (wenn das Farbwort „Grün“ in grüner Farbe gedruckt ist).
„Teilnehmer“ der Studie waren ChatGPT Version 4 und 4o (OpenAI), Claude 3.5 Sonnet (Anthropic) und Gemini Version 1 und 1.5 (Alphabet).
ChatGPT-4o am wenigsten beeinträchtigt
Alle getesteten Sprachmodelle absolvierten den MoCA-Test. ChatGPT-4o erreichte mit 26 von 30 möglichen Punkten die höchste Punktzahl, gefolgt von ChatGPT4 und Claude mit 25. Gemini 1.0 erreichte 16 Punkte, was auf einen schwereren Zustand kognitiver Beeinträchtigung hinweist.
Bei visuell-räumlichen/exekutiven Aufgaben schnitten alle Modelle schlecht ab. Die Gemini-Modelle scheiterten bei der Aufgabe verzögerten Erinnerns. Im inkongruenten Stadium des Stroop-Tests war nur ChatGPT-4o erfolgreich.
Schlussfolgerungen
Mit Ausnahme von ChatGPT-4o zeigten fast alle getesteten Sprachmodelle im MoCA-Test Anzeichen einer leichten kognitiven Beeinträchtigung. Wie beim Menschen war das Alter ein entscheidender Faktor für den kognitiven Verfall: „Ältere“ Chatbots schnitten tendenziell schlechter ab.
Diese Erkenntnisse stellen den Autoren zufolge die Annahme infrage, dass KI-Systeme menschliche Ärzte schon bald ersetzen könnten: Die offensichtliche kognitive Beeinträchtigung führender Chatbots könnte das Vertrauen der Patienten untergraben.
Quelle
Dayan R, et al. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ 2024;387:e081948.
Bildquelle
Have a nice day – stock.adobe