Das neue FDZ geht online. Welche Daten bzw. welche Datenquellen stehen zum Start zur Verfügung?
Wir starten mit den Abrechnungsdaten aller gesetzlichen Krankenversicherungen ab 2009 und zunächst bis einschließlich Berichtsjahr 2023. Ab dem kommenden Jahr werden wir dann aktueller, wir werden neue Daten jeweils 13 bis 15 Wochen nach Quartalsende einstellen. Natürlich kann man das noch weiter verbessern, aber das ist schon ein echter Fortschritt, gerade wenn wir an die Pandemie zurückdenken. In einem weiteren Schritt werden strukturierte Daten aus den elektronischen Patientenakten (ePA) und den Krebsregistern hinzukommen. Die können wir dank des neuen, übergreifenden Pseudonyms mit Abrechnungsdaten verknüpfen. Noch etwas weiter in der Zukunft liegt die Einbeziehung weiterer Datenquellen, was auch durch die Etablierung des EHDS nötig wird. Das ist derzeit noch in der Konzeption.
Bleiben wir zunächst bei den jetzt zur Verfügung stehenden Daten. Wo genau geht das neue FDZ inhaltlich über das bisherige FDZ hinaus? Und gelten die 13 bis 15 Wochen für alle Datenquellen? Sind zum Beispiel auch die Daten aus der ambulanten Versorgung so aktuell?
Was den Datenumfang angeht: Das ist ein schrittweiser Prozess. Mit dem neuen FDZ lösen wir uns von der Morbi-RSA-Logik. Wir etablieren ein Datenmodell, bei dem nicht mehr nur Diagnosen und Wirkstoffe im Vordergrund stehen, sondern auch zum Beispiel Prozeduren-Codes. Damit nähern wir uns dem Datensatz an, den die Krankenkassen bei sich vorliegen haben – mit dem Unterschied, dass wir sämtliche 95 Krankenkassen abdecken. Bisher mussten Versorgungsforscher:innen ja einzeln bei den Krankenkassen anklopfen. Das wird künftig deutlich einfacher. Was die Aktualität angeht: Wir sind in jedem Fall wesentlich aktueller als vorher. Der Vorgängerprozess lag ja noch beim DIMDI, da gab es teils vier Jahre Verzögerung. Aktuell ist es so, dass die Krankenkassen die ambulanten Versorgungsdaten teilweise erst mit neunmonatiger Verzögerung über die Kassenärztlichen Vereinigungen bekommen. Dennoch: Wir werden ab kommendem Jahr rollierende Datenlieferungen erhalten, bei denen immer nach Quartalsende die Datensätze der jeweils letzten vier Quartale von den Krankenkassen übermittelt werden. Die ambulanten Daten des vorausgehenden Quartals sind dann noch unvollständig, aber sie fehlen nicht völlig. Und sie werden schrittweise aktualisiert, also nicht erst dann eingespielt, wenn sie bei den Krankenkassen komplett vorliegen.
Der Zugriffsprozess auf die FDZ-Daten im alten FDZ hatte den Ruf einer gewissen Umständlichkeit. Wie wird das beim neuen FDZ?
Wir haben ein gesetzliches Zeitlimit von drei Monaten von Antrag bis Datenzugang. Das ist die Obergrenze, aber ich denke, wir können gerade zu Beginn deutlich schneller sein. Das hängt ein bisschen davon ab, wie groß der Bedarf ist. Die zweite und meines Erachtens wichtigere Neuerung beim Zugriffsprozess ist, dass die Art des Datenzugriffs fundamental anders funktioniert. Der alte Prozess ging davon aus, dass eine Forschungsfrage abschließend formuliert wird und danach die entsprechende Datenabfrage läuft. So funktioniert das aber nicht, Versorgungsforschung ist ein iterativer Prozess. Es muss unkompliziert möglich sein, Abfragen nachzubessern. Das geht jetzt, und deswegen glauben wir, dass das neue FDZ der Versorgungsforschung in Deutschland einen echten Schub geben wird.
Wie genau läuft der Prozess jetzt ab?
Wir haben ein digitales Antragsportal, das es ermöglicht, Forschungsfragen zu stellen, sofern sie den zehn gesetzlich erlaubten Zwecken entsprechen. Ist das gegeben, dann wird ein virtueller Datenzugang in einer sicheren Verarbeitungsumgebung ermöglicht. Konkret: Die Wissenschaftler:innen loggen sich ein und können dann auf unseren Systemen rechnen. In einem ersten Forschungsschritt können zum Beispiel synthetische Daten oder auch Stichproben der Echtdaten genutzt werden. Dann können die Abfragen ggf. modifiziert werden, bevor die große Abfrage am gesamten Datensatz erfolgt. Am Schluss, wenn die Forscher:innen fertig sind, schauen wir als Forschungsdatenzentrum uns die Ergebnismengen der Auswertung nochmal an im Hinblick auf Re-Identifikationsmöglichkeiten. Gegebenenfalls würden wir Einspruch erheben, dann muss der Datensatz so angepasst werden, dass das Re-Identifikationsrisiko minimal ist. Erst wenn das gewährleistet ist, können die Ergebnismengen auch heruntergeladen werden.
Das heißt, ich kann meine komplette Forschung von meinem Rechner aus machen? Ich muss nicht bei Ihnen vorbeikommen?
Genau, das ist komplett virtuell.
Was impliziert, dass Sie in relevantem Umfang technische Infrastruktur zur Verfügung stellen.
Ja. Die Rechenlast liegt in weiten Teilen bei uns. Im Prinzip könnte man diese Datenzugriffe dann auch mit einem nicht ganz neuen Laptop machen. Wir haben tatsächlich ein eigenes Rechenzentrum dafür aufgebaut. Das ist übrigens auch der Grund, warum es etwas länger gedauert hat als ursprünglich gedacht.
Kommen wir zu den Forschungsinhalten. Welche Art von Forschungsfragen wird das neue FDZ ermöglichen, die bisher nicht ohne weiteres möglich waren?
Vor allem werden durch den iterativen Abfrageprozess komplexere Methodiken möglich. Wenn es nur um Inzidenzen geht, dann läuft das sofort durch, das ging früher auch. Wenn es um Fragen nach der Überlebenszeit geht, oder andere moderne Analysemethoden wie z.B. Propensity Score Matching, dann braucht es die Möglichkeit, iterativ zu arbeiten. So etwas ist jetzt möglich. Anders als früher bietet das neue FDZ außerdem eine Art 360-Grad-Blick über alle Sektoren hinweg, das war vorher auch nicht so. Wer das wollte, musste einzelne Krankenkassen ansprechen und hatte dann zwangsläufig nur einen Ausschnitt der Versorgung. Das konnte gerade bei selteneren Erkrankungen ein Problem sein. Die seltenen Erkrankungen sind aus unserer Sicht ohnehin ein ganz interessantes FDZ-Forschungsfeld. Da wurde ein eigenes Codierungssystem entwickelt, das erst seit zwei Jahren verpflichtend ist. Damit können Forscher:innen eine Menge machen, was so bisher nicht ging.
Wie war das Interesse am FDZ seitens der Forschungs-Community im Vorfeld der Freischaltung?
Es gab schon eine gewisse Ungeduld. Wir waren auch die ganze Zeit in engem Kontakt mit den Forschenden, das geht auch gar nicht anders, sonst entwickeln wir ja am Bedarf vorbei. Zur Vorbereitung der Community haben wir ab Herbst 2024 Datennutzungs-Webinare aufgesetzt, da hatten wir teils 200 bis 400 Teilnehmer:innen. Das Interesse ist schon nicht klein. Was super ist, denn dafür machen wir das alles ja am Ende.
Ich habe kürzlich mit einem Wissenschaftler gesprochen, der in München und Boston forscht, und der auf Basis von Versorgungsdatensätzen aus den USA randomisierte klinische Studien simuliert hat. Das Stichwort dazu lautet Clinical Trial Emulation. Das ist derzeit ein Trendthema in der datenbasierten Forschung, auch weil die Hoffnung besteht, damit zusätzliche Daten für Zulassung oder Health Technology Assessment bzw. Nutzenbewertung generieren zu können. Diese Art Forschung gab es bisher in Deutschland kaum, weil die Datensätze derart aufwändige Studiensimulationen nicht hergeben. Wird so etwas künftig mit dem FDZ möglich sein?
Wir würden es schon gerne sehen, wenn so etwas künftig auch auf deutschen Datensätzen möglich wäre und die Forschenden dafür nicht mehr in die USA müssen. Inwieweit das dann zum Beispiel bei der Zulassung nützlich sein kann, muss man sehen. Das ist nicht unser Thema: Als FDZ sind wir zwar am BfArM angesiedelt, aber das Thema Zulassung läuft im BfArM völlig unabhängig vom Thema FDZ. Inhaltlich sehe ich diese neuen Methoden im Moment vor allem als Hilfsmittel für die Forschung, um Schlussfolgerungen ohne oder mit möglichst wenig Bias zu ziehen.
Ein Knackpunkt dafür ist die Frage, inwieweit der Datensatz die Informationen zu den jeweiligen Studienendunkten überhaupt hergibt. Viele klinische Endpunkte werden ja auch im neuen FDZ nicht ohne Weiteres zur Verfügung stehen.
Das ist so, ja. Da erhoffen wir uns natürlich einiges von den neuen Datenquellen, die wir sukzessive anbinden werden. Die ePA-Anbindung und die Anbindung der Krebsregister kann hier schon ganz hilfreich sein, denn da werden klinische Daten enthalten sein, die die Abrechnungsdatensätze nicht enthalten. Dennoch: Solche Studiendesigns sind schon eine Herausforderung. Auch bei den Emulationen aus den USA können zwar große Teile der jeweiligen randomisierten Studien nachgebildet werden, aber eben nicht alles.
Stichwort Krebsregister-Anbindung: Wie ist da der Stand?
Wir sind aktuell in Gesprächen mit den Landeskrebsregistern, um einen detaillierten Datensatz abzustimmen. Es gibt auch erste Ideen, wie die Datenflüsse und die sichere Arbeitsumgebung aussehen könnten. Das wird jetzt langsam konkret, allerdings hatte die ePA-Anbindung in unserer Entwicklungs-Pipeline zuletzt Priorität. Prinzipiell werden die Krebsregister relativ umfangreiche zusätzliche Daten liefern, von der genauen Pathologie über das Tumor-Staging bis hin zu den Therapieplänen. Gleichzeitig liefern die Krebsregister aber relativ wenig Daten zu dem, was der Krebsdiagnose jeweils vorausging, also zum Beispiel zu Risikofaktoren. Auch die Nachsorge ist nicht optimal abgebildet. Hier haben die Abrechnungsdaten ihre Stärke. Deswegen wird der Linkage dieser Datensätze relevanten Mehrwert bringen.
Wo sehen Sie den inhaltlichen Mehrwert der ePA-Anbindung?
Unter anderem in der Datentiefe. Gar nicht mal so sehr bei der Medikation, wo wir eine gute Überschneidung mit den Abrechnungsdaten haben. Aber denken Sie an die Labordaten. Da sagen uns die Abrechnungsdaten zwar, ob ein großes Blutbild angefertigt wurde, aber mehr auch nicht. Die Einbeziehung der ePA-Daten ermöglicht es, die Labordaten im Detail zu analysieren, wenn diese Daten in ein, zwei Jahren irgendwann strukturiert vorliegen.
Patientengenerierte Daten könnten im Zusammenhang mit der ePA-Forschung auch interessant werden, oder? Daten zu bzw. aus digitalen Gesundheitsanwendungen zum Beispiel.
Ja, hier wird es ja eine ePA-Anbindung geben. Das alles muss sich natürlich langsam aufbauen. Wir dürfen das FDZ am Anfang nicht mit Erwartungen überfrachten. Aber das Potenzial ist da.
Der Nachteil der ePA-Daten ist ihre Unvollständigkeit, Stichwort Opt-out. Kann man das rausrechnen?
Ich denke, bei vielen Fragestellungen wird das gehen. Wir haben auch bei einem Opt-out Informationen aus den Abrechnungsdaten. Mit deren Hilfe sollte es innerhalb gewisser Grenzen möglich sein, mittels statistischer Imputation zu antizipieren, was in den ePA-Daten stehen könnte. Das würde den Bias, der beim Opt-out notgedrungen entsteht, zumindest reduzieren.
Lassen Sie uns zum Abschluss noch ein bisschen über künstliche Intelligenz (KI) reden. Welchen Stellenwert hat das für die Versorgungsforschung – und damit für das FDZ?
Ich hatte erwähnt, dass wir versuchen, relativ nah an den Forschenden dranzubleiben. Wir hatten vor zwei Jahren eine Umfrage gemacht, und schon damals sagte rund ein Drittel, dass es bei ihnen Projekte gebe, bei denen KI bzw. Maschinenlernen zumindest eine der Säulen ist. Für uns als gewissermaßen Service-Provider heißt das: Wir müssen in den nächsten Jahren sukzessive Infrastrukturen zur Verfügung stellen – Software und Hardware – die KI-fähig sind. Und natürlich müssen auch unsere Prozesse zu einer KI-Welt passen. Der unbedingte Fokus auf Datensparsamkeit ist etwas, das da nicht sehr gut zu passt, gleichzeitig bleibt der Datenschutz natürlich eines unserer zentralen Anliegen. Eine erste Prozessidee ist zum Beispiel das Etablieren von Sandboxes, aber da gibt es sicher noch viel zu diskutieren.
Das Thema KI hat in der datenbasierten Forschung ja zwei Dimensionen. Zum einen wollen Wissenschaftler:innen KI nutzen, um Daten auszuwerten. Zum anderen geht es auch um das Training von KI-Algorithmen. Ist das in den FDZ-Planungen beides enthalten?
Das sind in der Tat unterschiedliche Herausforderungen. Bei der Forschung gilt als Grundprinzip: Die Forschung passiert bei uns, die Ergebnisse dürfen raus. Das ist auch dann umsetzbar, wenn wir von KI-basierter Forschung reden. Die Infrastruktur muss das halt hergeben, da sind wir dran. Das Trainieren von KI-Algorithmen ist etwas komplizierter. Grundsätzlich ist das einer der erlaubten Zwecke für die FDZ-Datennutzung, und das steht meines Wissens auch in der EHDS-Verordnung explizit drin. Insofern werden wir das ermöglichen. Da gibt es, so ehrlich muss man sein, noch ein paar Prozessherausforderungen, gerade mit Blick auf Fragen wie: Was darf das FDZ verlassen, und was nicht? Was ist noch personenbezogen, und was nicht? Wenn wir beispielsweise nach einem KI-Training ein komplett trainiertes Modell haben, dann sind wir aufgerufen, zu prüfen, dass das nicht mehr personenbeziehbar ist. Das ist interessant. Wir arbeiten daran, wir sind da auch mit KI-Expert:innen im Austausch. Sicher haben wir jetzt noch nicht alle Antworten, aber wir sind optimistisch, dass wir das vorhandene Potenzial gemeinsam mit der Wissenschafts-Community erschließen.
Das Interview führte Philipp Grätzel von Grätz
