Große Sprachmodelle (LLMs) und auf ihnen basierende, medizinische KI-Anwendungen wie die OpenEvidence App könne mittlerweile problemlos medizinische Staatsexamen bestehen. OpenEvidence gelang das kürzlich innerhalb weniger Minuten und erstmals komplett fehlerfrei. Machen diese Tools deswegen schon gute Medizin?
Nicht automatisch, wie eine Forschungsarbeit zeigt, die Prof. Dr. Marc Leon von der Abteilung für Herz-Thorax-Chirurgie der Universität Stanford betonte. Leon stellte beim Digital & Ai Summit der European Society of Cardiology (ESC) in Berlin eine Forschungsarbeit vor, die auf einer klinischen Beobachtung fußte. Leon hatte nämlich bemerkt, dass die Assistent:innen in seiner Klinik immer häufiger LLMs und andere KI-Tools bei klinischen Fragestellungen zurate ziehen. Auch in Deutschland ist das mittlerweile gang und gäbe.
Leon hat sich deswegen sein Fachgebiet, die Herzchirurgie, diesbezüglich etwas genauer angesehen. Er hat fünf LLMs – DeepSeek R1, GPT-4, Llama-3-OpenBioLLM-70B, o1 und o3-mini-high – auf insgesamt 15 klinische Szenarien angesetzt, in denen typische herzchirurgische Entscheidungen anstanden. Diese klinischen Szenarien wurden von einem Panel von drei erfahrenen Herzchirurg:innen entwickelt. Fünf weitere Herzchirurg:innen waren dann dafür zuständig, die Antworten der LLMs medizinisch zu bewerten bzw. in den 15 Szenarien das herzchirurgische „Goldstandardvorgehen“ zu definieren.
Neuere Modelle sind besser
Insgesamt zeigte sich dabei, dass die neueren KI-Modelle deutlich besser abschnitten als die etwas älteren Modelle. Der Sieger war das neue OpenAI-Modell o1, gefolgt von dessen kleinerem Bruder 03-mini-high. Platz 3 ging an DeepSeek-R1 aus China, erst dann kam GPT-4. Das Open-Source-LLM Llama3-OpenBioLLM-70B landete auf dem letzten Platz – obwohl es eigentlich spezifisch für biomedizinische Fragestellungen entwickelt wurde.
Einen richtigen Gewinner sieht Leon allerdings ohnehin nicht, denn das Gesamtergebnis war aus Sicht des Kardiochirurgen alles andere als erfreulich: „Die getesteten LLMs sind nicht bereit für einen sicheren Einsatz in der Herzchirurgie“, so das Fazit des Experten.
Im Detail zeigte sich, dass alle Modelle in der Domäne „Verstehen“ gut abschnitten. Die Modelle kapierten also das klinische Szenario, und sie gaben entsprechende sinnvolle, inhaltlich passende Antworten. Diese allerdings stimmten längst nicht immer mit dem überein, was die Expert:innen für die jeweiligen klinischen Szenarien vorschlugen. „Vor allem bei komplexeren Fällen, bei denen Entscheidungen in mehreren Stufen getroffen werden mussten, hatten die Modelle Schwierigkeiten“, so Leon.
KI-Modelle sind oft zu forsch
Besonders eindrucksvoll war das bei „Szenario 14“, bei dem es darum ging, bei einem Patienten, der eine mitrale Annuloplastie benötigte – also einen operativen Eingriff an der Mitralklappe des Herzens – die richtige Größe des Klappenrings auszuwählen. Das ist nicht trivial: Zu kleine Ringe bremsen den Blutfluss aus können die Blutdrücke im Herzen und den beiden Kreislaufen ungünstig beeinflussen, zu große Ringe verzerren die natürliche Herzanatomie. Für eine informierte Entscheidung müssen unterschiedliche Echo-Parameter, aber auch die individuelle Herzanatomie, berücksichtigt werden, und es müssen einige einfache Berechnungen durchgeführt werden.
Die nötigen Informationen lagen den KI-Modellen allesamt vor. Dennoch schlugen die fünf LLMs Mitralring-Durchmesser zwischen 28 mm und 32 mm vor. Das Experten-Panel empfahl demgegenüber 36 mm – ein erheblicher und klinisch hoch relevanter Unterschied. Durchweg Schwierigkeiten hätten die KI-Modelle auch damit gehabt, die Patientensicherheit bzw. individuelle Risiken korrekt einzuschätzen, so Leon: „Die Modelle neigten zur Übertherapie.“ Auch das ist etwas, das man in einem herzchirurgischen Setting eher nicht haben möchte.
