Wer die Vision hört, dem leuchtet sie unmittelbar ein: Eine Ärztin führt ein Aufnahmegespräch mit einem Patienten. Eine Künstliche Intelligenz, spezifischer ein großes Sprachmodell (LLM), hört mit und fertigt von dem Gespräch nicht nur ein wörtliches Transkript an, sondern erstellt aus dem Gespräch auch gleich eine strukturierte Dokumentation. Codierungsfachkräfte und codierende Ärzt:innen werden überflüssig, weil relevante Codes von SNOMED CT über OPS bis ICD-10 automatisch generiert werden. Selbstverständlich werden Datensätze, die übertragen werden sollen, auch gleich in ein zeitgemäßes Format wie HL7 FHIR überführt.
Im Krankenhaus oder auch ambulant werden Wissenschaftler:innen, die eine klinische Studie durchführen wollen, umfassend von Künstlicher Intelligenz (KI) unterstützt: Sie identifizieren potenzielle Patient:innen nicht mehr nur anhand existierender strukturierter Register, sondern lassen LLMs zusätzlich Freitexte durchforsten. Arztbriefe und Pflegeüberleitungsbögen entstehen wie von selbst und bedürfen allenfalls minimaler Korrekturen. Laienverständliches Informationsmaterial ist selbstverständlich. Und auf jeder Station gibt es Tools, die für eine klinische Entscheidungsunterstützung die Patientendokumentation in ihrer Gesamtheit und auch die klinischen Verläufe anderer Patient:innen berücksichtigen – statt einfach nur stumpf zu bestimmten Zeitpunkten halbwegs passende Leitlinienempfehlungen einzublenden.
Ärztinnen und Ärzte kriegen feuchte Augen
In ihrer Gesamtheit ist diese Vision Zukunftsmusik. Einzelne Komponenten davon existieren jedoch bereits, manche als Prototypen, andere sogar in der Routine. Teilweise werden bei diesen bereits existierenden Anwendungen LLMs genutzt. Oft kommen aber auch (noch?) spezifische KI-Modelle zum Einsatz, zum Beispiel solche, die mit Entscheidungsbäumen arbeiten. Die sind für manche Fragestellungen besser geeignet als LLMs. Auch lösen LLMs längst nicht in jedem der geschilderten Anwendungsfälle Interoperabilitätsprobleme im engeren Sinne.
Zeit, in das ganze Thema ein bisschen Ordnung hineinzubringen. Bei einem Workshop der gematik in Berlin wurde das im September versucht. Eine Kernthese, die dabei herausgemeißelt wurde und die auch viel Zustimmung erhielt, lautete: LLMs können in der Medizin eine Art universelle Übersetzungsfunktion übernehmen und auf diese Weise sozusagen indirekt zu mehr Interoperabilität beitragen. „Übersetzung“ bedeutet dabei zum einen die Strukturierung von Freitext – sei es schriftlicher Freitext oder Sprache – und dessen Ablage in strukturierten Dokumenten mit oder ohne Codierung. „Übersetzung“ geht aber auch in die umgekehrte Richtung: Aus einer medizinischen Dokumentation können LLMs prozessangepasste Informationen zu Freitextdokumenten zusammenstellen, seien es Epikrisen im Rahmen eines zusätzlich strukturierte Daten enthaltenden E-Arztbrief-Dokuments, seien es Pflegeüberleitungsbögen, seien es laienverständliche Entlassbriefe.
Es sind solche versorgungsnahen Anwendungen, die mit Zusammenfassen, Befunderstellen, Codierung und dem Abfragen von Daten aus einer existierenden Dokumentation zu tun haben, die dazu führen, dass insbesondere Ärztinnen und Ärzte beim Thema LLMs feuchte Augen kriegen. Der Arzt und KI-Wissenschaftler Prof. Dr. Jakob Nikolas Kather vom Else Kröner Fresenius Center an der TU Dresden hat kürzlich in einem Artikel in der medizinischen Fachzeitschrift Nature Medicine auf den Punkt gebracht, was Kliniker:innen an den LLMs fasziniert: Für die klinische Medizin könnten LLMs in gewisser Weise eine Rückkehr zu in kommunikativer Hinsicht als besser empfundenen, vordigitalen Zeiten sein (Kather JN et al. Nature Medicine 2024; 23.8.2024; doi: 10.1038/s41591-024-03199-w).
Große Sprachmodelle könnten die natürliche Sprache gewissermaßen wieder zum universellen Interface der Medizin machen – so wie es früher schon einmal war. Eine mehr oder weniger strukturierte Dokumentation und eine daraus abgeleitete Codierung mögen auch künftig nötig bleiben, aber sie finden nicht mehr an irgendwelchen Bildschirmen unter Nutzung irgendwelcher nervtötender Formulare statt, sondern automatisiert in digitalen Hinterzimmern.
Strukturierung vielversprechend, Codierung schwierig?
Wie immer bei Visionen braucht es einen Realitäts-Check, und der fällt vielschichtig aus. Wer bei der DMEA 2024 den Stand von Oracle besuchte, konnte dort, auf Englisch, ein Arzt-Patienten-Gespräch führen. Eine dazu passende strukturierte Dokumentation baute sich nebenher mehr oder weniger in Echtzeit von selbst auf. Das war, bei aller Begrenztheit des Anwendungsfalls, schon eindrucksvoll. Microsoft hat ebenfalls in dieser Richtung gearbeitet und GPT-4 von OpenAI bereits kurz nachdem es verfügbar war in seine medizinische Spracherkennung Nuance Dragon integriert – im Sinne einer Sprache-zu-SNOMED-CT-Übersetzungshilfe.
Tatsächlich sind „Strukturierung“ und „Codierung“ unterschiedliche Anwendungsfälle. Erste publizierte Erfahrungen mit einer FHIR-Strukturierung von gesprochenem oder geschriebenem Freitext sind vielversprechend. Das betrifft die Strukturierung von Radiologiebefunden, aber auch, in einer aktuellen Publikation, die Übersetzung von Freitext in FHIR-Medikationsressourcen (Li Y et al. NEJM AI 2024; 1(8); doi 10.1056/ALcs2300301). Günstig bei der LLM-basierten Überführung von Text in FHIR-Formate ist unter anderem, dass mit der FHIR-Validierung ein gut etabliertes Verfahren existiert, mit dem strukturelle Fehler des LLMs nachvollzogen und korrigiert werden können.
Bei der Codierung wiederum sind die bisher publizierten Ergebnisse eher enttäuschend gewesen. So zeigte eine kürzlich publizierte Arbeit, dass Sprachmodelle wie GPT-4 Codes oft einfach erfinden, mit Trefferquoten von teilweise unter 50 Prozent für zum Beispiel die ICD-Codierung (Soroush A et al. NEJM AI 2024; doi: 10.1056/Aldbp2300040). Allerdings wurde in der Soroush-Arbeit mit einer sehr simplen Zero-Shot-Herangehensweise gearbeitet, bei der einfach angenommen wurde, dass GPT-4 Codierung schon können werde. Technologien wie In-Context-Learning (ICL) oder Retrieval-Augmented Generation (RAG) sind Ansätze, bei den LLMs gewissermaßen für eine gewisse Vorbildung zu sorgen. Ob das reicht, ist eine offene Frage. Ob LLMs für eine Codierung überhaupt nötig oder sinnvoll sind, auch. Denn eine Codierung aus Text gelingt auch mit anderen KI-Ansätzen, und dann oft besser. Bei der Strukturierung aus Text scheinen LLMs dagegen besser abzuschneiden und vor allem unaufwendiger zu sein als beispielsweise die trainingsaufwendige Strukturierung durch Natural Language Processing.
LLMs als Datenzugangshilfe für die Forschung
Neben der klinisch tätigen blickt auch die klinisch forschende Zunft mit Spannung auf LLMs. Fehlende Interoperabilität im Sinne von fehlenden strukturierten Daten ist ein Haupthindernis für eine effiziente klinische Forschung – sowohl im Bereich klinischer Studien als auch im Bereich Versorgungsforschung. Entsprechend positiv sehen nicht zuletzt Vertreter:innen der forschenden Pharmaindustrie die Möglichkeiten von LLMs in diesem Kontext. Einer von mehreren Anwendungsfällen ist dabei die Identifizierung von Patient:innen, die für klinische Studien infrage kommen. Bei strukturierten klinischen Registern ist das schon heute automatisierbar möglich. Mit LLM-basierten Suchen könnten sich künftig aber auch jene nicht wenigen Patient:innen identifizieren lassen, die in Registern nicht zu finden sind, entweder weil sie nicht daran teilnehmen oder weil es für die interessierende Erkrankung gar kein Register gibt (den Hamer DM et al. arXiv 14.4.2023; doi: 10.48550/arXiv.2304.07396).
Prinzipiell gibt es hier zwei unterschiedliche Ansätze: LLMs könnten „direkt“ genutzt werden, um Patient:innen anhand von Ein- und Ausschlusskriterien in unstrukturierten Daten zu identifizieren. Die Alternative wäre, die unstrukturierten Daten zunächst zu strukturieren und dann in den strukturierten Daten anhand spezieller Kriterien gezielt zu suchen. Bevor sie auf die Patient:innen „losgelassen“ werden können, müssen entsprechende Ansätze evaluiert und später dann auch qualitätsgesichert werden.
Konkurrenz oder Ergänzung, das ist hier die Frage
Bei aller Diskussion über LLMs im Zusammenhang mit Interoperabilität und Standardisierung stellt sich die Frage, ob LLMs in erster Linie unterstützend wirken oder ob sie nicht, gewollt oder ungewollt, dazu führen, dass Strukturierung und Standardisierung herunterpriorisiert werden, weil die Nutzung von Freitext dank LLMs sehr viel einfacher wird. Unter Expert:innen in Sachen Standards und Interoperabilität herrscht weitgehend Konsens, dass eine solche Herunterpriorisierung definitiv nicht passieren sollte.
Bei anderen Teilnehmer:innen des breiten öffentlichen medizinischen Digitalisierungsdiskurses, bis hinauf in die Leitungsebenen von Ministerien und Behörden, hört es sich dagegen mitunter schon so an, als seien alle Interoperabilitätsprobleme jetzt gelöst, und es wird teilweise nicht so ganz klar, wie ernst das gemeint ist. In jedem Fall dürfte es ein Trugschluss sein. Aber gleichzeitig ist es wichtig, dass sich die Standardisierungs-Community der neuen Tools annimmt, um die Arbeit damit in konstruktive Bahnen zu lenken und einen Einsatz von LLMs dort zu bahnen, wo sie echten Nutzen bringen. Das sind die Standardisierer:innen nicht zuletzt den Anwender:innen in den medizinischen Einrichtungen schuldig.