Am 1. August 2024 trat der im Mai verabschiedete AI Act der Europäischen Union offiziell in Kraft. Er sorgt für einen Regulierungsrahmen für künstliche Intelligenz (KI bzw. AI), gibt aber zunächst wenig konkrete Antworten auf die Fragen von Herstellern und KI-Entwickler:innen. Im Bereich der medizinischen KI-Systeme inklusive solcher, die Large Language Models (LLM) nutzen, kommt in Europa hinzu, dass AI-Act und Medizinprodukteverordnung „auf Linie“ gebracht werden müssen. Dies ist vorgesehen, aber auch davon ist man, Stand im Moment, noch ein ganzes Stück entfernt.
Medizinische KI-Expert:innen der TU Dresden um Oscar Freyer und Stephen Gilbert vom Else Kröner Fresenius Center for Digital Health haben sich der Regulierung bzw. derzeitigen Nicht-Regulierung von LLMs jetzt in einem Review in der Fachzeitschrift Lancet Digital Health gewidmet. Er ist online im Volltext zugänglich und gibt einen spannenden und umfassenden Überblick über ein dynamisches Feld, dessen Bedeutung absehbar zunehmen wird.
USA versus Europa
Prinzipiell sei zu erwarten, dass LLM-basierte digitale Medizinprodukte in viele Bereiche der medizinischen Versorgung Einzug halten werden, so die Autor:innen, beispielsweise Krebsdiagnostik und Krebstherapie, Risikoprädiktion, Differenzialdiagnostik und nicht zuletzt die versorgungsnahe Interaktion zwischen Patient:innen und Anbieter:innen von Gesundheitsdiensten. Unterschieden werden müsse dabei zwischen LLM-basierten Tools, die sich an Laien und solchen, die sich an Medizinprofis richten.
Diese Unterscheidung ist auch regulatorisch relevant, insbesondere im Hinblick auf Unterschiede zwischen den USA und Europa. Während in Europa digitale Entscheidungsunterstützungs-Tools (CDSS) für Diagnose und Therapie – mit oder ohne LLM-Komponente – generell Medizinprodukte und in vielen Fällen absehbar Hochrisikomedizinprodukte sind, ist das in den USA bei Produkten, die sich an Laien richten, zwar auch generell so. CDSS-Produkte, die sich an Medizinprofis richten, werden dort allerdings im Niedrigrisikobereich teilweise anders behandelt.
Solange die Tools „nur“ in nicht-akuten Situationen beratende Hilfestellungen geben, Alternativen aufzeigen und Evidenz präsentieren, solange keine Bilder oder Signaldaten automatisch verarbeitet werden und die Entscheidungshoheit bei Arzt oder Ärztin bleibt, können CDSS Tools für Medizinprofis in USA außerhalb der Medizinprodukteregulierung bleiben. Und die FDA hat auch bei anderen medizinischen KI-Tools das Recht, eine so genannte „enforcement discretion“ auszuüben, also auf eine spezifische Zulassung zeitweise zu verzichten. All das gibt es in Europa nicht, was viele als Wettbewerbsnachteil ansehen. Auch die Dresdner Review-Autoren regen an, bei LLM-basierten KI-Anwendungen im Niedrigrisikobereich über niedrigere regulatorische Anforderungen nachzudenken.
Was gibt es schon?
Besonders viele LLM-basierte medizinische Anwendungen gibt es bisher noch nicht, doch das dürfte sich rasch ändern. Die Review-Autoren haben sich im Januar in dem damals neuen – nur für zahlende Kunden zugänglichen – GPT Store von OpenAI umgesehen und fanden vier an Patient:innen bzw. Bürger:innen gerichtete, LLM-basierte medizinische Anwendungen, von denen sie sich für den Review zwei, konkret Therapy AI und Doctor AI, genauer angesehen haben.
Eine weitere auf GPT-4 basierende Anwendung ist Smart AI Resource Assistant for Health (SARAH) der Weltgesundheitsorganisation WHO. Andere Anwendungen nutzen andere LLMs: Auf dem auf Medizin spezialisierten LLM Med-PaLM basiert zum Beispiel die Anwendung Vertex AI, und auf dem offenen LLM Polaris basiert die Anwendung Hippocratic AI.
Europäische Behörden halten sich zurück
Wie sieht es bei solchen Anwendungen in Sachen Medizinproduktezertifizierung aus? In den USA ist die Situation regulatorisch insofern nicht so dringend, als sich die FDA bei LLM-basierten CDSS für Medizinprofis im Niedrigrisikobereich aus den geschilderten Gründen zurückhalten und sich bei Chatbots für die Allgemeinbevölkerung auf „enforcement discretion“ zurückziehen kann.
Die europäischen Behörden haben diese Optionen nicht. LLM-basierte Anwendungen, die – für Medizinprofis oder Allgemeinbevölkerung – diagnostische und therapeutische Empfehlungen geben, sind in Europa qua derzeitiger Rechtslage unstrittig Medizinprodukte. Bisher ist aber nicht einmal der Chatbot SARAH der rechtlich in Europa angesiedelten WHO ein in Europa zertifiziertes Medizinprodukt. „LLM-basierte Anwendungen sind schon im Markt erhältlich, aber unseres Wissens wurde noch keine davon behördlich zugelassen“, so die Autor:innen des Reviews. Mit anderen Worten: Die Behörden handeln (noch) nicht.
Von den Autor:innen des Reviews wird dieses Nichthandeln kritisch gesehen, weil es regulatorische Unsicherheit produziere. Sie fordern, dass Zulassungsbehörden und auch App Stores den Markt stärker überwachen sollten, damit der Abgrund zwischen theoretischen rechtlichen Anforderungen und praktischer Realität nicht immer größer wird. Gleichzeitig müssten sich Entwickler:innen ihrer Verantwortung bewusst sein: Medizinische LLM-Anwendungen sollten bestimmten Prinzipien folgen, etwa indem sie eine mehr beratende als empfehlende Kommunikation nutzen und ihr Wissen nur aus seriösen und qualitätsgesicherten Quellen beziehen. Auch seien rigorose klinische Tests erforderlich, und es sollten Maßnahmen umgesetzt werden, die dafür sorgen, dass potenziell schädliche Empfehlungen gar nicht erst kommuniziert werden.
Weitere Informationen:
Den vollständigen Review finden sie im Internet bei Lancet Digital Health:
A future role for health applications of large language models depends on regulators enforcing safety standards
https://www.thelancet.com/action/showPdf?pii=S2589-7500%2824%2900124-9