E-HEALTH-COM ist das unabhängige Fachmagazin für Gesundheitstelematik, vernetzte Medizintechnik , Telemedizin und Health-IT für Deutschland, Österreich und die Schweiz.
Mehr

Für das ePaper anmelden

Geben Sie Ihren Benutzernamen und Ihr Passwort ein, um sich an der Website anzumelden

Anmelden

Passwort vergessen?

Top-Thema |

Künstliche Intelligenz: Kann Software ärztliche Kunst?

Foto: © M.Doerr & M.Frommherz - Fotolia

So kontrovers war Medizin lange nicht: Während viele Geeks und gar nicht wenige Ärzte der Massendatenanalytik mithilfe künstlicher Intelligenz in der Medizin revolutionäres Potenzial zutrauen, reden andere von Hype und manche wettern über einen Rückschritt für die medizinische Wissenschaft. Zeit für eine Bestandsaufnahme: Wo überall können selbstlernende Algorithmen in der medizinischen Versorgung und Forschung eingesetzt werden? Was sind die Probleme? Und wie lassen sie sich lösen?

 

Doktor Algorithmus ist in aller Munde, in jedem Blog, jedem Wochenmagazin, jeder Tageszeitung. Algorithmen sollen Bilddaten und Hautbefunde analysieren, mobile Überwachungs­szenarien aller Art ermöglichen und Endoskopikern bei der Entscheidung helfen, welche Gewebestrukturen wegen Krebsgefahr entfernt werden müssen. Sie sollen im ambulanten Notdienst die erste Anlaufstelle bilden und auch an anderen Ecken des Gesundheitswesens Patienten triagieren, Krankenhausärzte bei der Risikoabschätzung unterstützen und Frühwarnsysteme aller Art mit medizinischer Intelligenz unterfüttern. Alles Wunschdenken?


„Die Ergebnisse sind beeindruckend gut“
Tatsache ist, dass Maschinenlernalgorithmen und hier vor allem die von Googles Go-Spielroboter bekannten Deep-Learning-Algorithmen, die ohne hinterlegte Modelle selbstständig lernen, im Moment für höchste wissenschaftliche Weihen gut sind. Während es selbst aufwendige, randomisierte Telemedizinstudien selten über Mittelklasse-Journale hinausschaffen, sind absolute Alpha-Journale wie Nature Medicine, Lancet oder die Annals of Internal Medicine für rein retrospektive, viel weniger aufwendige Validierungsstudien keine echte Hürde, sofern dafür irgendein klinischer Deep-Learning-Algorithmus mit einer hohen Zahl an Patientendatensätzen gefüttert wurde.


Dabei ist Maschinenlernen an sich nichts Neues, und auch die jetzt überall eingesetzten neuronalen Netze haben schon drei Jahrzehnte auf dem Buckel. Dank aktueller Hard- und Software, vor allem moderner Grafikkarten, können heute aber anders als früher hochkomplexe Netzwerke innerhalb akzeptabler Zeiträume trainiert werden. Was dabei herauskommt, fasziniert auch Ärzte: „Die Ergebnisse vieler retrospektiver Analysen sind schon beeindruckend gut. Das wäre vor Kurzem noch undenkbar gewesen“, betont der Herzchirurg Dr. Alex­ander Meyer, der am Deutschen Herzzentrum Berlin und der Charité Berlin zum Einsatz künstlicher Intelligenz in der Intensivmedizin forscht.


Bei Bild- und EKG-Analytik erreicht die KI oft Facharztniveau

Für einige Knaller der letzten Monate hat die in London ansässige Google-Tochter DeepMind gesorgt. Zusammen mit Augenärzten des Moorfields Eye Hospital berichten IT-Experten des Unternehmens im August 2018 in Nature Medicine, dass eine Kombination aus mehreren Algorithmen 50 Netzhauterkrankungen so zuverlässig erkennt, dass die KI als Triage-Tool zur Priorisierung von Patienten eingesetzt werden kann, die sich einem OCT-Screening unterziehen. Zum Einsatz kam bei diesem Projekt ein sogenanntes überwachtes Maschinenlernen: Die Software wurde mit knapp 15 000 OCT-Scans der Netzhaut trainiert, die von Experten zuvor annotiert worden waren. 


Überwachtes Maschinenlernen ist das, was in der klinischen Medizin üblicherweise eingesetzt wird: Algorithmen werden mit klar definierten, möglichst qualitätsgesicherten Trainingsdatensätzen auf spezifische Fragestellungen trainiert. Ebenfalls im August 2018 publizierten 23 japanische Gastroenterologen in den Annals eine Studie über die Evaluierung einer ebenfalls „überwacht“ trainierten KI für die Endozytoskopie bei Darmspiegelungen. Bei 791 konsekutiven Patienten erreichte der Algorithmus im Hinblick auf die Frage, ob ein Polyp bösartig ist, gemessen am Goldstandard Pathologie einen negativ-prädiktiven Wert von 96 Prozent – für Analysen in Echtzeit wohlgemerkt. Den Japanern zufolge ist das mehr als genug für eine dia­gnostische Strategie, bei der Polypen, bei denen die KI nicht anschlägt, ohne weitere Diagnostik im Darm belassen werden.


Die Liste lässt sich nahezu beliebig fortsetzen. Die sehr agile KI-Arbeitsgruppe der Universität Stanford berichtete 2017 über ein komplexes neuronales Netzwerk mit 29 Schichten, das Ein-Kanal-EKGs im Hinblick auf zwölf unterschiedliche Herzrhythmusstörungen sowie normalen Sinusrhythmus und Messfehler („Noise“) analysierte. Letztlich schlug das Computermodell sechs Kardiologen bei fast allen trainierten Rhythmusstörungen außer den ventrikulären Tachykardien. Ebenfalls aus Stanford kam im Jahr 2017 eine Nature-Publikation, die vor allem in der Dermatologie Wellen schlug. Ein auf Basis von knapp 130 000 Fotografien von Hautbefunden trainiertes neuronales Netz war bei zwei kritischen Differenzial­diagnosen – weißer Hautkrebs gegen seborrhoische Keratose und schwarzer Hautkrebs gegen gutartige Nävi – genauso gut wie 21 dermatologische Fachärzte.


Die Diagnostik wird demokratisiert
Mittlerweile werden Maschinenlernalgorithmen auch auf Fragestellungen angesetzt, die jenseits dessen liegen, was die meisten Ärzte zu leisten in der Lage sind. Bei der Tagung Intelligent Health 2018 im September in Basel berichtete der Leiter der Abteilung für genetische Medizin am Universitätsklinikum Lausanne, Prof. Andrea Superti-Furga, von einem mit dem Unternehmen Face2Gene ins Leben gerufenen Projekt, bei dem es darum geht, aus den Fotografien von Gesichtern von Kindern Hinweise auf seltene genetische Erkrankungen abzulesen. Was Ärzten bei einer sehr typischen Erkrankung wie der Trisomie 21 noch relativ leichtfällt, wird bei selteneren und weniger markanten Erkrankungen nahezu unmöglich.


Den Face2Gene-Algorithmen gelang die Blickdiagnose bei einem Mädchen mit Coffin-Siris-Syndrom, und bei einem Kind mit Frank-Ter-Haar-Syndrom landete die korrekte Diagnose auf Rang zwei. Beides hätte kaum ein Arzt ohne Gentest herausgefunden. Bei anderen Kindern lag die Software allerdings auch mal komplett falsch. „Das ist kein magisches Programm. Aber wenn bei einer Genanalyse mehrere Kandidatengene gefunden werden, kann es helfen, die korrekte Diagnose zu stellen. Und bei undiagnostizierten Kindern hilft es, Gemeinsamkeiten mit bekannten Erkrankungen zu finden“, betonte Superti-Furga. Tatsächlich gebe es manche Erkrankungen, bei denen der Arzt häufiger die richtige Diagnose stellt und andere, bei denen die Software besser ist: „Das ist ziemlich spannend.“


Eine der großen Stärken medizinischer KI-Algorithmen ist für Superti-Furga die „Demokratisierung“ dia­gnostischer Fähigkeiten. Die „Gesichtserkennung für seltene Erkrankungen“ kann überall auf der Welt eingesetzt werden. Auch in vielen anderen Bereichen kann künstliche Intelligenz dazu beitragen, die Dia­gnose aus dem Elfenbeinturm der fachärztlichen Spezialversorgung zumindest partiell zu befreien. „Die wahre transformative Kraft der KI liegt bei Kosten und Zugang zur Medizin, nicht bei der Effektivität“, betonte auch Dr. Kaveh Safavi von Accenture Global Health Practice.


Auf dem Weg zu einer KI-Plattform für die Radiologie?
Dass sich sehr viele klinische KI-Projekte im Moment in Bereichen wie radiologischer Bildanalytik, Pathologie oder auch EKG- und EEG-Analytik abspielen, dürfte damit zusammenhängen, dass es sich dabei letztlich um überschaubare Einsatzszenarien handelt, die viel mit Mustererkennung zu tun haben, bei denen klar ist, was sinnvolle Trainingsdatensätze sind und in denen es klinisch eher wenige Interpretationsspielräume gibt. Vor der Gefahr, sich zu viel vorzunehmen, warnt auch Dr. Andreas Lemke, der das in Berlin ansässige KI-Start-up mediaire gegründet hat. Es möchte bald Werkzeuge zur Diagnoseunterstützung für Radiologen anbieten. mediaire hat ein neuronales Netz anhand mehrerer tausend MRT-Datensätze darauf trainiert, bei der Gehirn-MRT eine Volumetrie vorzunehmen und diese automatisch auszuwerten – in Abhängigkeit von Geschlecht, Alter, Kopfumfang und anderen Faktoren. Die Volumetrie ist unter anderem bei Patienten mit neurodegenerativen Erkrankungen ein zentrales diagnostisches Werkzeug.


„Wir beschränken uns am Anfang auf neurodegenerative Erkrankungen, um es handhabbar zu machen“, so Lemke. Auf Dauer schwebt ihm aber eine breite KI-Plattform vor, die unterschiedlichste radiologische KI-Services anbietet und letztlich auch Diagnosen stellen soll. Zum Konzept gehört, dass Nutzer eigene annotierte Datensätze zur Verfügung stellen, damit die Software kontinuierlich besser werden kann. Das alles soll sehr praxisnah am Bedarf des Radiologen entlang entwickelt werden. Nicht umsonst sind unter den vier Gründern des Unternehmens auch zwei Radiologen.


Eine breit aufgestellte KI-Plattform, das könnte man sich auch in der Strahlentherapieplanung vorstellen. Eine ganz aktuelle Arbeit des University College London beschäftigt sich mit der sehr praxisnahen Frage, ob selbstlernende Algorithmen die noch immer sehr manuelle und enorm zeitaufwendige Strahlentherapieplanung automatisieren können. Erste Testläufe bei Kopf-Hals-Tumoren wurden auf dem Preprint-Server ArXiv.org veröffentlicht. Nach einem Training anhand von 663 CT-Datensätzen konnten in einer Validierungsstudie mit 24 CT-Datensätzen aus aller Welt expertenanaloge Planungsergebnisse erzielt werden – in einem Bruchteil der Zeit.


Demenzprognose per Spracherkennung?

Jenseits von EKG und Bildgebung bewegt sich das Unternehmen Cambridge Cognition, das ursprünglich kognitive Fragebögen digitalisiert hat. Maschinenlernen kommt im nächsten Schritt ins Spiel: Das Unternehmen nutzt Deep-Learning-Algorithmen, um aus den Ergebnissen der Fragebögen Verdachtsdiagnosen neurodegenerativer Erkrankungen zu erstellen. „Wir sind sehr erfreut über die bisherigen Ergebnisse“, betonte Dr. Francesco Cormack, Director of Research and Innovation bei Cambridge Cognition. Bei Alzheimer, Parkinson und frontotemporaler Demenz sei die Treffsicherheit schon ausgezeichnet. Bei der Demenz-Vorstufe Mild Cognitive Impairment (MCI) gebe es noch Luft nach oben: „Hier müssen wir besser werden, denn letztlich wollen wir natürlich frühe Diagnosen stellen können, um früh therapeutisch intervenieren zu können“, so Cormack.


Reine Forschung ist das Ganze nicht mehr: „Wir haben Produkte, die schon im Einsatz sind, vor allem bei der Rekrutierung für klinische Studien“, so Cormack. Produkte der nächsten Generation sollen nicht nur Fragebögen, sondern auch Spracherkennung als Datenquelle nutzen. Dadurch werden einerseits Spracheingaben möglich, etwa Rückwärtszähltests und Ähnliches. Es werden aber auch komplexe Multiparameteranalysen denkbar, die mit Tests im eigentlichen Sinne nichts mehr zu tun haben. So kann die Cambridge Cognition Software anhand der Stimme gestresste von ungestressten Menschen unterscheiden. Vielleicht lässt sich das auch auf die kognitive Diagnostik erweitern.


Risikoprädiktion auf Basis elektronischer Patienten­akten
Multiparameteranalysen lautet auch das Stichwort bei einer weiteren, viel diskutierten Spielart der klinischen KI-Anwendungen, nämlich der prädiktiven Analytik anhand elektronischer Patientenakten. Hier hatte es im Frühsommer 2018 einen Aufschrei gegeben, als erneut Google DeepMind in Nature Digital Medicine über einen Algorithmus berichtete, der anhand von 200 000 Patientendatensätzen zweier großer Universitätsklinika in den USA trainiert wurde. Ziel war die Vorhersage relevanter klinischer Ereignisse. Insgesamt 46 Milliarden Datenpunkte flossen in das Training ein.


Am Ende konnte der Algorithmus 24 Stunden nach Aufnahme deutlich genauer vorhersagen, welche Patienten während des Krankenhausaufenthalts sterben, als das etablierte Vorhersagemodell aEWS. Er konnte auch genauer als existierende Modelle vorhersagen, wer rehospitalisiert wird und wer sehr lange im Krankenhaus bleibt. Die Rezeption fokussierte sich natürlich auf die Sterbeprognosen. Doch hier lohnt ein genauerer Blick. DeepMind gibt an, dass die Zahl der falsch positiven Vorhersagen – also jene Patienten, bei denen die Software den Tod im Krankenhaus voraussagt, die aber letztlich doch nicht sterben – im Vergleich zu traditionellen Methoden halbiert wird. Aber: Auch bei Analyse von 46 Milliarden Datenpunkten stirbt nur einer von sieben bis acht „Kandidatenpatienten“. Bei bisherigen Scores ist es einer von 14 bis 15. Wie relevant ist das? Ist das besser als die Intuition eines Arztes?


Berliner Ärzte wagen sich an Daten aus der Intensivstation

DeepMind waren nicht die Ersten, die eine solche Studie publizierten. Die Siegerurkunde gebührt Data Scientists um Dr. Riccardo  Miotto von der Icahn School of Medicine at Mount Sinai in New York, die schon ein Jahr vorher ganz Ähnliches berichtet hatten, die allerdings ohne den PR-trächtigen Namen DeepMind im Hintergrund nicht annähernd so viel Öffentlichkeit erreichten. Und auch Deutschland hat jetzt eine entsprechende Studie, die allerdings – ein etwas anderer Ansatz – auf die Intensivstation fokussiert, auch weil dort dank höherem Digitalisierungsgrad mehr auswertbare digitale Daten zur Verfügung stehen als in den üblichen deutschen Krankenhaus-ePAs.


Die Studie stammt von Dr. Alexander Meyer vom Deutschen Herzzentrum Berlin / Charité Berlin und wurde kürzlich in Lancet Respiratory Medicine veröffentlicht. Ein anhand von 52 Parametern aus den elektronischen Patientenakten von knapp 50 000 intensivmedizinischen Patienten trainierter Algorithmus konnte in einer knapp 6 000 Patienten großen Validierungskohorte bereits im Moment der Aufnahme auf die Intensivstation sehr zuverlässig vorhersagen, wie hoch das Risiko postoperativer Blutungen sowie das Risiko eines postoperativen Nierenversagens ist. Gängige Scores wurden auch hier problemlos geschlagen. Beides sind sehr relevante Informationen für einen Intensivmediziner. Meyer betont, dass die Berliner Studie explizit nicht die Mortalität in den Vordergrund rückte, sondern Endpunkte, bei denen weitgehend unstrittig ist, dass sie im Alltag hilfreich sind.


Prädiktionisten versus Interpretisten
Die Stärke eines Deep-Learning-Ansatzes wie dem geschilderten besteht darin, dass diese Art der Prädiktion hochautomatisierbar ist. Niemand muss scoren, niemand muss sinnvolle Parameter für eine Vorhersage festlegen. Der Preis für die Bequemlichkeit ist, dass diffuse Wahrscheinlichkeiten produziert werden, die in vielen Fällen klinisch nicht relevant sein dürften. Es ist ein Unterschied, ob ein System auf Basis von fünf definierten Parametern vor einem drohenden Nierenversagen warnt oder ob eine unbegründete Sterbewahrscheinlichkeit von 16 Prozent angegeben wird. Mit der ersten Information kann ein Arzt unter Umständen etwas anfangen. Die zweite hilft ihm nicht weiter.


Mit der Frage der klinischen Relevanz zusammen hängt die Frage, ob es nötig ist, zu verstehen, worauf eine künstliche Intelligenz ihre Einschätzung basiert. Selbstlernende Algorithmen sind die berühmte Blackbox: Sie liefern Ergebnisse, verraten aber nicht, warum. Wie relevant das klinisch ist, wird kontrovers beurteilt. Blackboxes sind in der Medizin nicht unbekannt: Es gibt auch viele Medikamente und diagnostische Marker, die Ärzte rein empirisch nutzen. Simon Williams von dem Unternehmen QuantumBlack drückte es in Basel so aus: „Performance-Advokaten sagen, dass die Vorhersagekraft viel relevanter ist als die Interpretierbarkeit.“


Lässt sich die BlackBox öffnen?
Die Behauptung, dass es völlig unmöglich sei, in die Blackbox der Algorithmen hineinzuschauen, ist ohnehin nicht korrekt. Im Sommer 2017 berichteten Wissenschaftler der Abteilung für „Primary Care Research“ der Universität Nottingham über ein Projekt, bei dem sie vier unterschiedliche Deep-Learning-Algorithmen im Bereich kardiovaskuläre Risikoprädiktion untersucht haben. Alle vier waren besser als das von den US-Fachgesellschaften ACC und AHA empfohlene klinische Prädiktionsmodell. Interessant wird die Arbeit, weil es gelang, entscheidungsrelevante Faktoren teilweise zu analysieren. Schwere psychische Erkrankungen und die orale Steroidtherapie waren, durchaus überraschend, Teil der „Top-Ten-Liste“ jener Risikofaktoren, die die KI-Systeme am höchsten gewichten. Der Diabetes dagegen, ein traditioneller Risikofaktor, spielte für die Vorhersagen der KI-Systeme kaum eine Rolle.
Simon Williams skizzierte in Basel das unter anderem im Bereich der Planung von Rennstrategien für Formel-1-Rennwagen und im Online-Banking entwickelte Konzept der „explainable AI“, das die Blackbox selbstlernender Algorithmen öffnen kann. Das Prinzip ist, dass mehrere Algorithmen ineinander verschränkt werden und sich quasi gegenseitig analysieren. Ein Algorithmus übernimmt zum Beispiel die Risikoprädiktion. Ein weiterer wird darauf trainiert, zu erkennen, was die Entscheidungsfaktoren des ersten Algorithmus sind. Und ein dritter Algorithmus ist dafür zuständig, die Arbeit des zweiten Algorithmus quasi in natürliche Sprache zurückzuübersetzen. „Auf diese Weise können wir die Kette durchbrechen und jene Modelle erklären, mit denen Blackboxes arbeiten“, so Williams.


Zulassung und Qualitätsmanagement: Offene Flanken oder Pseudo-Probleme?
Neben dem Blackbox-Problem gibt es noch eine zweite Baustelle, bei der noch nicht so ganz klar ist, ob es sich um ein echtes Hindernis oder um ein Pseudo-Problem handelt, und das ist die Zulassung dieser Anwendungen als Medizinprodukt. Dass sie zugelassen werden müssen, ist völlig unstrittig, es gibt aber Stimmen, die sagen, dass eine Zulassung eigentlich gar nicht möglich sei: „Was ist, wenn selbstlernende Algorithmen am Montagmorgen zertifiziert werden und am Montagnachmittag ihre Meinung ändern?“, brachte es Dr. Navin Ramachandran vom University College London etwas zugespitzt auf den Punkt. Wie, mit anderen Worten, lässt sich eine Software zertifizieren, deren Empfehlungen sich dank selbstlernender Algorithmen mit der Zeit ändern?


Nicht alle sehen dieses Problem als real an: „Wir glauben nicht, dass es nötig sein wird, Algorithmen kontinuierlich mit einzelnen Datensätzen zu trainieren“, sagt Andreas Lemke von ­mediaire. Viel plausibler sei ein Training in Form regelmäßiger Updates. Damit können Behörden problemlos umgehen, wie auch die FDA bewies, die im Frühjahr 2018 erstmals eine selbstlernende Software zur Auswertung von Retinabildern im Screening auf diabetische Retinopathie zuließ. Lemke weist auch auf Parallelen zum selbstlernenden Fahren hin. Dort sei es schon aus Sicherheitsgründen schwierig, Algorithmen kontinuierlich zu trainieren.


Die Situation könnte bei der klinischen Risikoüberwachung auf Basis elektronischer Patientenakten freilich eine andere sein: Hier liegt eine der Stärken von Maschinenlernalgorithmen möglicherweise gerade im nicht­überwachten Lernen, in der Identifikation von Risiken, an die bis dahin noch niemand gedacht hatte: „Wollen wir selbstlernende Algorithmen in der Medizin wirklich auf Update-Zyklen beschränken?“, so Ramachandran.


Lautet die Antwort nein, dann steht schnell die Frage im Raum, wie gewährleistet werden kann, dass die ständig selbstlernenden Algorithmen nicht schlechter werden. Beispiel Risikoprädiktion: Was ist denn, wenn Ärzte anfangen, als Folge der Risikoprädiktion der Algorithmen bestimmte klinische Maßnahmen zu ergreifen, die dazu führen, dass jene Parameter, auf denen die Algorithmen ihre Voraussagen basieren, sich ändern? Wie beeinflusst das die Aussagekraft der Ergebnisse, und bekommen die Nutzer es mit, wenn die Prädiktion dadurch schlechter wird?


FDA experimentiert, EMA ist noch auf der Sinnsuche
Die europäischen Zulassungsbehörden scheinen zu diesem ganzen Themenkomplex noch keine echte Meinung zu haben: „Wir versuchen gerade zu verstehen, wie wir uns der künstlichen Intelligenz und ihren ethischen, legalen und sicherheitsbezogenen Aspekten nähern können“, sagte Salvatore Scalzo, Policy and Legal Officer bei der Europäischen Kommission, betont vage. Scalzo sprach auch viel von Vertrauensbildung und von laufenden „Gap-Analysen“, alles Vokabeln, die Behörden verwenden, wenn sie sich nicht festlegen wollen.


Auch Bakul Patel von der Direktion Digital Health bei der FDA blieb in Basel schmallippig. Die US-Zulassungsbehörde experimentiert etwas mehr, unter anderem mit einem Precertification Program namens Pre-Cert, das die Behörde vor anderthalb Jahren als Teil ihres Digital Health Innovation Action Plan in die Diskussion gebracht hat. Es wird in Kürze einen Pilottest durchlaufen, für den die FDA im Herbst 2017 aus rund 100 Bewerbern neun Partnerunternehmen ausgewählt hat, darunter Apple, Google / Verily, Roche, Samsung, Fitbit und Johnson & Johnson.


Was die Details des Programms angeht, herrscht weiterhin erhebliche Unklarheit. So hat der in den USA
bekannte Medizinprodukteanwalt Bradley Merrill Thompson von der Kanzlei Epstein Becker & Green in einem bei MobiHealthNews veröffentlichten Kommentar konstatiert, dass das Programm bisher im Wesentlichen aus Versprechungen bestehe und dass fast alle Fragen zu Kosten, Sicherheit und Aufwand für die Unternehmen unbeantwortet seien.


Die FDA selbst betont, dass es ihr darum gehe, Unternehmen zu präzertifizieren, die in ihren Entwicklungsprozessen gewisse Standards einhalten. Diese ausgewählten Unternehmen sollen dann eine Art Vertrauensvorschuss, einen relativ niedrigschwelligen Zugang zum Digital-Health-Markt bekommen und insbesondere Softwareprodukte mit niedrigem Risiko ohne die bei der FDA üblichen Vorab-Review-Prozesse anbieten können. Dann sollen möglichst zügig möglichst viele Real-World-Daten generiert werden, die in die weitere Bewertung des Produkts einfließen.


Die Krux mit der Zweckbestimmung

Ein eher europäisches Problem bei der Medizinproduktezertifizierung im Bereich Software und damit auch bei künstlicher Intelligenz ist die Zweckbestimmung, die in der EU die Hersteller vornehmen. Sie legen fest, ob eine App oder Software für eine Diagnose oder Therapie gedacht ist oder nicht. Was dann in der Praxis passiert, ist eine andere Frage. Eine handfeste Diskussion gab es hier um das britische Unternehmen Babylon Health, das eine KI-gestützte Triage-Software für den telemedizinischen Erstkontakt anbietet. Die Software teilt Patienten im ersten Schritt nach Dringlichkeit ein. Das sei keine Diagnose oder Therapie, hieß es anfangs. Kürzlich gab es dann aber Berichte, wonach es möglich war, mit infarktverdächtigen Schmerzen oder Meningitis-typischen Beschwerden von der KI den Stempel „niedriges Risiko“ zu erhalten – mit potenziell dramatischen Konsequenzen. Die Diskussionen dürften vor diesem Hintergrund noch ein Weilchen andauern – in Europa und den USA.

 

Text: Philipp Grätzel von Grätz, Chefredakteur E-HEALTH-COM