E-HEALTH-COM ist das unabhängige Fachmagazin für Gesundheitstelematik, vernetzte Medizintechnik , Telemedizin und Health-IT für Deutschland, Österreich und die Schweiz.
Mehr

Für das ePaper anmelden

Geben Sie Ihren Benutzernamen und Ihr Passwort ein, um sich an der Website anzumelden

Anmelden

Passwort vergessen?

Forschung |

»Manche Anwendungen sind gefährlich und sollten nicht im Markt sein«

Mit dem AI Act steigt Europa in die Regulierung der Künstlichen Intelligenz (KI) ein, und das betrifft
nicht zuletzt KI-gestützte Medizinprodukte. Aber wird die durch AI Act und Medizinprodukteverordnung
(MDR) geprägte regulatorische Landschaft in Europa der enormen Dynamik der KI gerecht? Was ist mit Medizinprodukten, die mit großen Sprachmodellen (LLMs) arbeiten? Droht Europa hier abgehängt zu werden? Professor Stephen Gilbert vom Else Kröner Fresenius Zentrum für Digitale Gesundheit der TU Dresden sieht Handlungsbedarf auf vielen Ebenen – und empfiehlt insbesondere einen Blick nach Großbritannien.

Prof. Dr. Stephen Gilbert; Foto: © EKFZ / A. Stübner

Mit den Large Language Models (LLM) beginnt ein neues Kapitel bei den digitalen Medizinprodukten. Welche Arten von Anwendungen können auf Basis von LLMs entwickelt werden, die es so vorher nicht gab?
Das Neue an den LLMs ist, dass sie große Mengen an unterschiedlichen Informationen sehr flexibel verarbeiten können. Eine Vielzahl an Anwendungen im Bereich medizinischer Dokumentation sind bereits im Markt verfügbar – auch in Europa, aber vor allem in den USA und in UK. Beispiele dafür sind Tools, die Arztbriefe generieren oder Ambient-Anwendungen, die aus Arzt-Patienten-Gesprächen medizinische Dokumentation erzeugen. Die meisten dieser Tools sind keine Medizinprodukte, aber sie sind oft nah dran. Tatsächlich bieten einige der Anwendungen schon jetzt Use Cases an, die in den Bereich von typischen Medizinprodukten hineinreichen – zum Beispiel, wenn auf Basis einer Dokumentation diagnostische und therapeutische Maßnahmen vorgeschlagen werden. Der Übergang von der Dokumentation zur Interpretation als Use Case ist fließend. Wenn ich mit einer Ambient-Anwendung ein Arzt-Patienten-Gespräch aufzeichne, gehört es zur Funktionsweise von LLMs, im nächsten Schritt Empfehlungen für das weitere Patientenmanagement zu geben. Die Grundfunktion von LLMs ist es, Fragen zu beantworten. Wenn die Entwickler das nicht gewissenhaft einschränken, werden die LLMs das auch tun. Und häufig liegt es auch im Interesse der Entwickler, die Grenzen zwischen Dokumentation und Interpretation zu verschieben, um ihr Produkt für Ärztinnen und Ärzte so interessant wie möglich zu machen.

Werden solche Tools denn bereits genutzt oder sind das alles noch Prototypen?
Solche Tools werden zunehmend im Alltag verwendet, das muss uns klar sein. Ob sie auch zugelassen sind, ist ein anderes Thema. Nehmen wir den S.A.R.A.H. Chatbot der WHO als Beispiel. Das ist ein mehrsprachiger Video-Chatbot, der es ermöglicht, sehr realitätsnah mit einem Krankenpflege-Avatar über mentale Gesundheit zu sprechen. Diese Anwendung zeigt, wohin die Reise geht. Oder Hippocratic AI, die mit NVDIA kooperieren. Die haben eine ganze Armee an virtuellen Agenten, spezialisierte virtuelle Krankenpflegekräfte, die Patientinnen und Patienten nach Entlassung aus dem Krankenhaus beraten. Diese sehen aus und sprechen wie echte Personen. Das ist schon beeindruckend. Erwähnen möchte ich auch noch multimodale Anwendungen, die Bild und Text zusammen verarbeiten. Hier ist Philips gerade an einem Pilotprojekt mit der Aufsichtsbehörde in UK, der MHRA, beteiligt, das auf eine Zulassung als Medizinprodukt zielt.

Lässt sich abschätzen, wie viele LLM-basierte medizinische Anwendungen schon im Markt sind?
Wir haben uns kürzlich die App Stores angesehen, und es werden immer mehr. Im GPT Store von Open AI haben wir sechs Anwendungen gefunden, im App Store von Apple eine und im Google Play Store vier. Außerhalb der App Stores haben wir vier weitere Anwendungen identifiziert, die von großen Playern entwickelt und breiter vermarktet werden. Das ist zum einen die schon angesprochene S.A.R.A.H., dann Glass Health, ein Entscheidungsunterstützungssystem (CDSS) auf LLM-Basis für den US-Markt, außerdem einige etwas ernster zu nehmende Symptom-Checker.

Gibt es irgendwo auf der Welt schon LLM-basierte, zugelassene Medizinprodukte?
Ich kenne keines, aber in UK sind sie auf dem Weg dorthin. Es gibt dort das „AI Airlock“-Pilotprogramm der MHRA. Der Begriff Airlock kommt von der Internationalen Raumstation. Das ist die Luftschleuse, durch die man die Raumstation betritt und die es dem Astronauten ermöglicht, von der Kälte des Weltraums zurück in die atembare Atmosphäre zu gelangen. Im Rahmen des AI-Airlock-Programms sollen insgesamt fünf LLM-basierte Anwendungen im Hinblick auf ihre Zulassung geprüft werden, von denen mindestens zwei auf LLMs basieren. Gleichzeitig wird ein völlig neuer Zulassungsprozess im Rahmen dieser regulatorischen Sandbox erprobt. Die schon erwähnte Philips-Anwendung ist eine dieser fünf Anwendungen und kommt aus dem Bereich der radiologischen Befunderstellung. Sie analysiert Bilddaten und erstellt Zusammenfassungen von Informationen aus der elektronischen Patientenakte, sie beinhaltet also Bild- und Textintelligenz. Das ist auch unter den regulatorischen Bedingungen in UK eindeutig ein Medizinprodukt. Entsprechend hat sich Philips entschlossen, mit der MHRA diesen Weg zu gehen.

Wie sieht es in den USA aus?
Die Situation dort ist insofern eine andere, als digitale Medizinprodukte dort etwas anders definiert sind. Die eingangs erwähnten Dokumentations-Tools für den ­Gebrauch sind in den USA auch dann nicht zwangsläufig Medizinprodukte, wenn sie konkrete Empfehlungen für das Patientenmanagement geben. Es gibt da eine relativ große Grauzone. Die kommt dadurch zustande, dass im Rahmen des 21st Century Cures Act, also eines Bundesgesetzes, festgelegt wurde, dass für den professionellen Einsatz konzipierte, rein textbasierte CDSS – unabhängig davon, ob sie LLMs nutzen oder nicht – unter bestimmten Bedingungen keine Zertifizierung als Medizinprodukt brauchen. Diese Bedingungen werden von der FDA in einer Guidance konkretisiert. Ein bekanntes Beispiel für eine solche Anwendung ist das schon erwähnte Glass Health Tool. Die Anwendung, die dem am nächsten kommt und in Europa auf den Markt gebracht wird, wurde von Doctolib angekündigt. Glass Health hatte seine KI-Anwendung zunächst als eine Art Übungs-Software für Ärztinnen und Ärzte vermarktet. Das war regulatorisch unkritisch. Vor etwa einem Jahr kam dann der Strategiewechsel, seither wird es als CDSS vermarktet. Man kann dieser Anwendung sehr breit Fragen stellen, auf Basis einer textbasierten medizinischen Dokumentation und ärztlicher Fragen, inklusive Empfehlungen für diagnostische oder therapeutische Schritte. Was nicht genutzt werden kann, sind Bilder oder Daten aus medizinischen Geräten, das schließt der 21st Century Cures Act aus. 

Und was verlangt die FDA Guidance zusätzlich, damit sie ohne Zertifizierung bleiben können?
Das ist der springende Punkt. Die FDA macht recht genaue Vorgaben. Die Unternehmen müssen erläutern, wie genau die Anwendung funktioniert. Sie müssen Evidenz dafür liefern, dass die Anwendung das tut, was sie soll. Und sie müssen Vorkehrungen treffen dahingehend, dass Automation Bias verhindert wird. All dies wird von den Herstellern der bereits auf dem Markt befindlichen Anwendungen weitgehend ignoriert. Beim Automation Bias zum Beispiel mag es eine kleine Warnmeldung geben, aber das ist dann auch schon alles. Evidenz wird oft nur rudimentär geliefert, und genaue Informationen zur Funktionsweise gibt es auch nicht. Dadurch entsteht eine ziemlich große und ziemlich problematische Grauzone. Letztlich dürfte es irgendwann Präzedenzfälle geben, die vor Gericht geklärt werden.

In Europa wären dagegen selbst rein textbasierte LLM-Tools uneingeschränkt Medizinprodukte, sobald sie CDSS-Funktionen anbieten, richtig?
Ja. Damit ist die Grauzone in Europa deutlich kleiner. Es gibt allenfalls Verwirrungen über die jeweilige Medizinprodukteklasse, aber nicht über die Zertifizierungspflicht an sich.

Werden die regulatorischen Vorgaben in Europa denn auch durchgesetzt? Und wie ist das in den USA?
Sie werden bisher nicht konsequent durchgesetzt. Tatsächlich ist mir weder in Europa noch in den USA auch nur ein einziges Beispiel bekannt, bei dem eine Zulassungsbehörde aktiv geworden wäre. Es gab einen Fall in Texas, wo ein Unternehmen ein LLM-basiertes Dokumentations-Tool damit beworben hat, dass es nicht halluziniere. Das hat einen Attorney General auf den Plan gerufen. Diese Sache ging aber nicht vor Gericht, das Unternehmen hat die Behauptung einfach nicht mehr genutzt.

Warum ist diese Zurückhaltung ein Problem? Man könnte ja argumentieren, dass dadurch Innovationen schneller in den Markt kommen.
Man könnte so argumentieren, ja. Ich würde da bis zu einem gewissen Grad sogar mitgehen: Es sollte im jetzigen Stadium der Entwicklung eine gewisse Flexibilität bei der Durchsetzung regulatorischer Anforderungen im Zusammenhang mit LLM-basierten Tools geben. Diese Flexibilität gibt es zumindest in den USA auch: Der FDA steht das Instrument der Enforcement Discretion zur Verfügung. Das heißt, sie kann auf die Durchsetzung der Vorgaben in bestimmten Fällen verzichten. Aber das kann nicht heißen, dass pauschal auf eine Durchsetzung regulatorischer Vorgaben verzichtet werden sollte. Wir haben uns viele Anwendungen sehr genau angesehen: Es gibt einige, die sind nicht einmal in der Nähe von gut. Sie sind gefährlich und sollten einfach nicht im Markt sein.

Was wäre ein sinnvolles Vorgehen?

Eine weise Zulassungsbehörde würde versuchen, Extreme zu vermeiden. Sie würde bei sehr schlechten Anwendungen einschreiten, klare rote Linien benennen und diesseits davon Flexibilität zeigen. In den USA würde das auch gehen, die FDA könnte das tun. Das Problem konkret in Europa ist, dass es einerseits extrem strenge Regularien für digitale Medizinprodukte gibt. Und gleichzeitig hat die Zulassungsbehörde keinen offiziellen Spielraum, um flexibel zu agieren. Das Instrument der Enforcement Discretion gibt es in Europa nicht. Diese Kombination aus sehr strengen Regeln einerseits und keinerlei Ambitionen, sie umzusetzen, andererseits, führt dazu, dass das Vertrauen in das regulatorische System verloren geht. Und das ist ganz schlecht.

Lassen Sie uns noch mal kurz einen Schritt zurückgehen: Was sind die besonderen Herausforderungen bei der Zulassung von LLM-basierten Medizinprodukten?
Wir haben das in einer Veröffentlichung in Nature Medicine 2023 zusammengestellt. Das fand auch Eingang in die WHO Guidance für LLMs. Ein Thema sind die Halluzinationen. LLMs können Informationen erfinden, das kann bei einem Knowledge Graph zum Beispiel nicht passieren. Wenn man zum Beispiel ein LLM testet, indem man ihm echte und falsche Patientendaten gibt, dann vermischt das LLM diese Informationen mitunter und könnte bei künftigen Abfragen Unsinn produzieren. Ein LLM weiß nicht, was falsch ist, das ist ein Problem. Ein anderes Problem ist die Breite der LLMs. Die Grundeinstellung eines LLMs ist, dass es jede beliebige Frage beantwortet. Natürlich kann man die Breite eines LLMs begrenzen, und man muss das auch. Nehmen Sie GPT, dem wurde beigebracht, dass es auch andere Perspektiven auf die Welt gibt als die südkalifornische. Und ihm wurde beigebracht, nicht zu verraten, wie man Bomben baut. So etwas braucht es bei medizinischen LLMs auch. Eine konventionelle KI-Software, die Rundherde im Lungen-CT identifiziert, liefert eine Fehlermeldung, wenn man ihr ein Gehirn-CT gibt und sie nach frühen Zeichen der Alzheimer-Erkrankung fragt. Ein LLM-basiertes Tool würde dagegen eine Antwort geben, und die wird manchmal überraschend gut und häufig überraschend schlecht sein. Als drittes spezifisches Problem würde ich noch das Thema SOUP nennen wollen, also Software of Unknown Provenance. Viele LLM-basierte Medizinprodukte nutzen General Purpose AI-Modelle, die über eine API angebunden werden. Nun ändert sich dieses LLM-Modul aber mit der Zeit. Und es ändert sich auch von Version zu Version, zum Beispiel ist GPT 3.5 anders als GPT 4.0. Darüber hat ein Medizinproduktehersteller aber keinerlei Kontrolle.

Wie kann ein Unternehmen, das ein LLM-basiertes Medizinprodukt entwickeln will, mit all diesen Herausforderungen umgehen? 
Letztlich braucht es eine Strategie, die unterschiedliche Maßnahmen kombiniert. Der Fokus des Tools muss eingeengt werden, je nach Anwendung. Glass Health beispielsweise akzeptiert keine Bilder oder andere Gerätedaten, das wäre so eine Einengung. Man könnte ein CDSS auch so entwickeln, dass es nur die jeweils nächsten klinischen Schritte empfiehlt, aber nichts sonst. Das Tool muss dann, zweitens, in Bezug auf den eingeengten Fokus systematisch getestet werden. Und drittens sollte man als Hersteller auch die Kontrolle über das KI-Modell haben, das man nutzt. Ein LLM selbst zu entwickeln, ist im Regelfall nicht praktikabel. Aber es gibt LLMs, bei denen man die Kontrolle behält. Hier macht auch der AI Act der Europäischen Union eine ganze Menge an Vorgaben.

Und wie könnte dann auf Basis einer solchen Entwicklung ein funktionierender Zertifizierungsprozess ­aussehen? Können wir uns da von den Briten schon etwas abschauen?
Ich glaube schon, dass eine regulatorische Sandbox wie jene der MHRA – in Deutschland sagt man auch Reallabor – ein Teil der Lösung ist. Eine Sandbox ersetzt den traditionellen, eher konfrontativen Zulassungsprozess durch eine enge Zusammenarbeit von Unternehmen und Zulassungsbehörde. Die Behörde wird dabei zu einer Art Beraterin, mit der man zu jedem Zeitpunkt während des gesamten Prozesses kommunizieren kann. Es muss sich allerdings noch zeigen, wie gut das dann in der Umsetzung wirklich funktioniert, die Briten sind da ja auch erst am Anfang. In der EU wird das alles dadurch etwas komplizierter, dass es den AI Act mit zahlreichen Anforderungen gibt, die aber erst einmal implementiert werden müssen – teils auf europäischer, teils auf nationaler Ebene. Da geht es um die Dokumentation von Trainingsdaten, um das Verhindern von Bias, um die technische Dokumentation und um Anforderungen an die Foundation Models, die sich auch noch unterscheiden, je nachdem, ob es Open-Source-Modelle sind oder nicht. Das ist alles sehr vernünftig, nur muss das jedes Land in seinen eigenen Sandbox-Projekten umsetzen. Ich sehe die Gefahr, dass das eher langsam geht. Als Hersteller eines LLM-basierten Medizinprodukts würde ich mir im Moment vor allem den UK-Markt ansehen, das geht schneller. Die USA sind knapp dahinter, da dürfte unter der Trump-Regierung auch noch mehr Bewegung reinkommen. Verstehen Sie mich nicht falsch, auch in UK und in den USA werden die Risiken dieser Tools gesehen. Aber es gibt dort auch eine Art vorwärtsgewandtes Denken, das in Europa nicht so ausgeprägt ist.

Sandboxes bzw. Reallabors sind eine Antwort auf die Frage, wie der Weg zu LLM-basierten Medizinprodukten aussehen könnte. Das kann aber nicht alles sein, oder?
Nein. Einen anderen Aspekt, den ich für zukunftsweisend halte, sind sogenannte Testbed-Szenarien, also systematische Prüfprogramme. Da geht es um eine kontinuierliche Überwachung LLM-basierter Medizinprodukte durch unabhängige Prüflabors.

So ähnlich wie die Ringversuche in der Labormedizin?
Es hat Ähnlichkeiten. Im Prinzip geht es darum, KI-Anwendungen extern zu monitoren. Die Herausforderung ist, Tools zu entwickeln, die das auch leisten können. Bisher gibt es solche Tools nicht, nirgendwo auf der Welt. Ich würde gern noch eine dritte mögliche Dimension der Governance bei LLM-basierten Medizinprodukten – und auch generell bei künstlicher Intelligenz – erwähnen, und das ist die AI Assurance. Das ist ein Konzept, das bisher vor allem in den USA und in UK diskutiert wird. Es geht dabei um eine zusätzliche Governance-Ebene, die weniger in technische Details geht, als die Benannten Stellen bei der Zertifizierung das tun. Das lässt sich gut an den KI-basierten Dokumentations-Tools illustrieren. Das sind keine Medizinprodukte, aber wollen wir diese Anwendungen komplett unreguliert lassen? Denkbar wäre eine Art sanfte, inhaltliche Überwachung dahingehend, ob diese Produkte das tun, was sie vorgeben zu tun, und ob sie es in guter Qualität tun.

Wie könnte man so etwas umsetzen?
Es gibt da unterschiedliche Ansätze. Eric Topol hat gerade im Lancet einen kurzen Perspektiven-Artikel verfasst, in dem er anregt, sich bei der medizinischen Ausbildung inspirieren zu lassen: Junge Ärztinnen und Ärzte arbeiten im Prinzip selbstständig, aber es gibt eine Aufsicht durch erfahrenere Kolleginnen und Kollegen. Diese Aufsicht wird dann mit zunehmender Erfahrung schrittweise zurückgefahren. So etwas könnte man auch bei KI-Tools umsetzen. Wir selbst haben solche Konzepte auch schon einmal angedacht in einer Publikation, und einige andere denken auch in diese Richtung, zum Beispiel Bakul Patel von Google, früher FDA. Eine andere Möglichkeit für eine AI Assurance wäre eine Transparenzfunktion, die es Nutzerinnen und Nutzern ermöglicht, niedrigschwellig und an gut zugänglicher Stelle die Performance einer KI-Anwendung zu bewerten, sodass andere Nutzerinnen und Nutzer das sehen können. Diese Idee ist bei den Unternehmen nicht besonders beliebt, aber es könnte eine wirksame Maßnahme sein. 



Das Interview führte Philipp Grätzel von Grätz, Chefredakteur E-HEALTH-COM.

 

Zur Person

Prof. Dr. Stephen Gilbert
hat seit März 2022 die damals neu geschaffene Else Kröner Professur für Medical Device Regulatory Science am Else Kröner Fresenius Zentrum für  Digitale Gesundheit der Technischen Universität Dresden inne. Er hat an der Universität Leeds in Computerbiologie promoviert, war Forscher im Bereich Zellphysiologie und spezialisierte sich auf die klinische Bewertung und Erprobung medizinischer Produkte sowie der zugrundeliegenden regulatorischen Anforderungen und deren Umsetzung. Von 2019 bis 2022 war er Clinical Evaluation Director in der medizinischen Abteilung von Ada Health in Berlin, davor Clinical Evaluation Manager bei ­BIOTRONIK in der Abteilung für Regulatorik. In dieser Zeit hat er im Bereich regulatorischer/klinischer Aspekte für neuartige Implantate und KI-basierte digitale Gesundheitstechnologien gearbeitet.