Wissenschaftler aus Berlin haben Deep Learning Algorithmen auf intensivmedizinische Datensätze losgelassen. Die neuronalen Netze schlagen klinische Prädiktions-Scores deutlich.
Die Google-Tochter DeepMind hat in den letzten Monaten gemeinsam mit Ärzten und Biostatistikern eine ganze Reihe von hochrangigen wissenschaftlichen Publikationen lanciert, in denen die Algorithmen des Unternehmens individuelle klinische Vorhersagen auf Basis von Patientenaktendatensätzen machen oder Bilddaten aller Art auswerten. Neben den DeepMind-Experten gibt es zwei Arbeitsgruppen in den USA, eine davon an der Universität Stanford, die aus der Künstlichen Intelligenz ebenfalls eine kleine Publikationsmaschinerie gemacht haben.
Klinische KI aus deutschen Landen
Dass derartige Studien, die zum jetzigen Zeitpunkt noch nicht auf klinische Routine zielen sondern eher darauf, mögliche Einsatzszenarien selbstlernender Algorithmen in der klinischen Medizin besser auszuleuchten, auch in Deutschland möglich sind, haben im Bereich Bildgebung schon einige sowohl radiologische als auch ophthalmologische Arbeitsgruppen gezeigt. Für die klinische Routinedatenanalytik gibt es jetzt eine eindrucksvolle neue Arbeit, die der Kardiochirurg Dr. Alexander Meyer vom Deutschen Herzzentrum Berlin bzw. Charité Berlin und Berlin Institute of Health jetzt in der Zeitschrift Lancet Respiratory Medicine veröffentlicht hat.
Die Studie erinnert an eine DeepMind-Studie von Anfang des Jahres, die es bis in die Boulevard-Presse geschafft hatte. Damals wurden 200.000 elektronische Patientenakten ausgewertet und versucht, zum Aufnahmezeitpunkt vorherzusagen, welche Patienten ein erhöhtes Risiko haben, zu versterben. Das gelang insofern als gängige klinischer Scores zur Prädiktion von Sterblichkeit geschlagen wurden. Es stellte sich aber die Frage der klinischen Relevanz. Denn ob es wirklich einen Unterschied macht, wenn ein Arzt weiß, dass einer von sieben bis acht Risikopatienten stirbt oder, wie bei konventionellen Scores, einer von 14 bis 15, darüber kann man streiten.
Gretchenfrage: Wie umsetzen im klinischen Alltag?
Die Berliner Studie fokussiert jetzt deutlich stärker und könnte dadurch klinisch relevanter werden. Zum einen wurden die Deep Learning Algorithmen nur anhand von (etwas über 47000) intensivmedizinischen Datensätzen trainiert. Das sind von vornherein schon eher die Risikopatienten. Zum anderen konzentrierte man sich nicht nur auf die Sterblichkeit, sondern auch auf zwei wichtige andere Endpunkte, nämlich postoperative Blutung und Nierenersatztherapie.
Und hier wird es dann schon spannender. Auch in der Berliner Studie wurden die üblichen klinischen Risiko-Scores zumindest beim positiv-prädiktiven Wert durchweg von den Algorithmen geschlagen. Das kann man bei derartigen Studien mittlerweile fast erwarten. Aber auch der Blick in die Details lässt aufhorchen. Beispiel Nierenversagen: Wenn die Sensitivität der Algorithmen auf jene des klinischen Risiko-Scores kalibriert wird, ist nahezu jede Warnung ein Treffer. Nicht ganz so gut sind die Daten bei den Blutungen. Die Herausforderung der nächsten Jahre wird sein, diese Prädiktionen zum einen noch weiter zu verbessern und zum anderen sie so in den klinischen Alltag einzubauen, dass sie Nutzen generieren. Nicht einfach, aber lohnend.
Philipp Grätzel
Weitere Informationen:
Originalpublikationen Lancet Respiratory Medicine
https://www.thelancet.com/journals/lanres/article/PIIS2213-2600(18)30300-X/fulltext