Nutzenbewertung: Welche Evidenz wofür?: E-HEALTH-COM

In einem mehrstufigen Prozess hat das britische National Institute for Clinical Excellence (NICE) Empfehlungen für die klinische Prüfung und die Nutzenbewertung unterschiedlicher E-Health-Anwendungen vorgelegt. Ein Meilenstein in der digitalen Evidenzdebatte.

Quelle: © syahrir – Fotolia

Die digitale Revolution schreitet voran, und mit ihr die Frage, welche Anforderungen an digitale Anwendungen zu stellen sind, bevor sie den Patienten zur Verfügung gestellt werden können. Während die Frage der Zulassung als Medizinprodukt mit der jüngsten Neufassung der Medizinprodukterichtlinie als weitgehend geklärt angesehen werden kann, ist die Frage „Welche digitalmedizinischen Lösungen soll ein Gesundheitswesen bezahlen?“ weitgehend offen.

Die Zeiten, in denen alles, was zugelassen wurde, automatisch erstattet wird, sind bei den Medizinprodukten schon länger und auch bei den Arzneimitteln mittlerweile weitgehend vorbei. Dass es ausgerechnet bei E-Health-Lösungen anders werden könnte, durfte niemand seriös erwarten. Kurz: Auch bei E-Health-Lösungen stellt sich unabhängig von beziehungsweise gegebenenfalls in Ergänzung zur Zulassung die Frage einer nachgelagerten Nutzenbewertung.

Nutzenbewertung in Deutschland und ihre Grenzen
Das Gremium, das in Deutschland eine Nutzenbewertung durchführt, ist der Gemeinsame Bundesausschuss (G-BA). Dieser stützt sich dabei auf Gutachten des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), das konkret den Zusatznutzen zu bisherigen Standardverfahren zu evaluieren hat. Der G-BA übernimmt viele der Empfehlungen des IQWiGs eins zu eins, muss dies aber nicht zwingend tun. Das Ausmaß des Zusatznutzens entscheidet darüber, auf welcher Grundlage Erstattungsverhandlungen zwischen den Herstellern und den gesetzlichen Krankenversicherungen geführt werden können: je mehr Zusatznutzen, desto mehr darf der Hersteller verlangen.

Um das deutsche Nutzenbewertungsverfahren zu verstehen und auch angemessen würdigen zu können, muss man sich bewusst machen, dass es mit dem Blick auf Arzneimittelinnovationen entwickelt wurde. Bei Arzneimitteln verlangen die Zulassungsbehörden bis heute regelmäßig randomisierte kontrollierte Studien, und diese RCTs nutzt dann auch das IQWiG für seine Bewertungen. Mehr noch: Die Methodik des IQWiG ist so gestaltet, dass in allererster Linie sogenannte patientenrelevante Endpunkte (Sterblichkeit, Morbidität, Lebensqualität) in die Bewertung einfließen, die auf Basis von RCTs evaluiert wurden. Diese klassische, sehr strenge Nutzenbewertung, für die das deutsche Gesundheitswesen in anderen Ländern viel Aufmerksamkeit bekommt, stößt an unterschiedlichen Stellen an Grenzen.

Bei den Arzneimitteln führt die zunehmende molekulare Stratifizierung speziell, aber nicht nur, im
Bereich der Onkologie dazu, dass immer kleinere Subentitäten von Erkrankungen entstehen, die mit teils sehr gezielt wirksamen Medikamenten behandelt werden. Dies veranlasst die Zulassungsbehörden – in Europa die European Medicines Agency (EMA) – dazu, neue klinische Studienkonzepte zu akzeptieren, die nicht mehr im klassischen Sinne randomisierte Phase-III-Studien sind. Wie die nachgelagerte Nutzenbewertung damit umgeht, ist derzeit offen. Eine Möglichkeit ist eine anwendungsbegleitende Datenerhebung nach Zulassung, die die Bundesregierung jetzt im Zuge des Gesetzes für mehr Sicherheit in der Arzneimittelversorgung (GSAV) einführen will.

Herzinsuffizienz und TIM-HF2-Studie: Ausnahme oder neues Paradigma?
An Grenzen stößt die deutsche Nutzenbewertung auch bei Medizinprodukten und speziell bei E-Health-
Lösungen. Hier gibt es, im Gegensatz zu den Arzneimitteln, ungleich mehr Lösungen und Produkte, bei denen randomisierte Studien keinen oder nur begrenzt Sinn machen. In vielen Fällen sind sie auch schlicht nicht durchführbar, weil sich der Effekt einer digitalen Lösung schlecht von dem zum Beispiel um die digitale Lösung herumgestrickten Versorgungskonzept separieren lässt.

Das heißt nicht, dass es nicht prinzipiell geht. Bekanntlich wurde mit der TIM-HF2-Studie bei Patienten,
die wegen Herzinsuffizienz stationär behandelt worden waren, genau das versucht. Ein komplexes 24/7-Versorgungsprogramm mit telemedizinischem Servicecenter wurde gegen Standardversorgung randomisiert, und die Studienleiter konnten zeigen, dass dadurch die Sterblichkeit der Herzinsuffizienzpatienten sinkt. Härtere Evidenz geht nicht. Der Lohn für die Arbeit, die inklusive Vorgängerstudie mehr als ein Jahrzehnt umfasste: Der GKV-Spitzenverband hat jetzt beim Gemeinsamen Bundesausschuss einen Antrag auf reguläre Erstattung des engmaschigen Multiparameter-Monitorings bei Herzinsuffizienzpatienten nach stationärem Aufenthalt gestellt.

Deutschland fehlt ein Evidenzkonzept für E-Health
Nicht bei allen telemedizinischen Anwendungen und schon gar nicht bei allen E-Health-Anwendungen macht diese „brachiale“ – also sehr aufwendige und teure – Art der Evidenzgewinnung Sinn. Auch in Deutschland gibt es schon länger Diskussionen über ein abgestuftes Konzept für eine Nutzenbewertung bei digitalen Anwendungen, bei dem die Anforderungen von der Art der Anwendung abhängen. Durchgesetzt hat sich das bekanntlich nicht. Derzeit ist es eher so, dass bei aufwendigeren Versorgungslösungen nach dem Gemeinsamen Bundesausschuss gerufen wird – bei dem aber nur selten jemand auch wirklich einen Antrag stellt.

E-Health-Lösungen mit tatsächlich oder vermeintlich geringeren Evidenzanforderungen – Migränetagebücher, Tinnitus-Apps etc. – sind in Deutschland dagegen im Bereich Selbstmarketing der Krankenkassen angesiedelt, oder sie werden auf Ebene des einheitlichen Bewertungsausschusses unter Umgehung der Nutzenbewertung abgehandelt. Das liefert regelmäßig unbefriedigende Ergebnisse. Diverse Krankenkassen-Apps und -Anwendungen kann man hinsichtlich ihrer klinischen Effektivität allenfalls als grenzwertig belegt bezeichnen, was – Homöopathie lässt grüßen – problematisch ist, weil Versichertengelder ausgegeben werden. Lösungen, die im Bewertungsausschuss an der Nutzenbewertung vorbei eingeführt werden – Videosprechstunde, telemedizinische Device-Abfrage –, sind dagegen regelmäßig so unbefriedigend erstattet, dass man es sich auch sparen könnte. Die Unzufriedenheit ist groß, und sie nimmt zu.

NICE definiert vier Evidenzkategorien
Vor diesem Hintergrund ist das, was derzeit in Großbritannien entwickelt wird, von erheblichem Interesse auch für Deutschland. Dort hat sich das National Institute for Clinical Excellence (NICE) im letzten Jahr hingesetzt und einen Rahmen für Evidenzstandards für digitale Technologien formuliert. Diese Publikation wurde im Dezember 2018 zur öffentlichen Kommentierung vorgelegt, und seit März gibt es jetzt das vorläufige Abschlussdokument, in das die Kommentierungsergebnisse eingeflossen sind. Die Publikation bezieht sich auf digitale Anwendungen, die im Rahmen des britischen Gesundheitssystems zur Anwendung kommen könnten. Explizit ausgeklammert werden Anwendungen, die mit selbstlernenden Algorithmen arbeiten.

Konkret schlägt das NICE vor, in Anlehnung an Empfehlungen der Weltgesundheitsorganisation WHO aus dem Jahr 2018 vier Gruppen von E-Health-Anwendungen zu unterscheiden (Abbildung). In die Gruppe 1 fallen Anwendungen, die rein organisatorischen Zwecken dienen, idealtypisch etwa die Verwaltungssoftware eines Krankenhauses. Die Gruppe 2 ist deutlich komplexer. Sie umfasst Anwendungen, die allgemeine Gesundheitsinformationen zur Verfügung stellen, Anwendungen, die ein-
fache Gesundheitsdaten monitoren – prototypisch Symptomtagebücher – sowie Anwendungen, die der Kommunikation dienen – prototypisch die Videosprechstunde.

Die medizinische Musik spielt in Gruppe 3, die unterteilt wird in eine Gruppe 3a und eine Gruppe 3b. In Gruppe 3a fallen Anwendungen mit möglichen positiven Gesundheitseffekten, die entweder im Bereich Prävention und Verhaltensänderung – Prototyp Raucherentwöhnung – oder im Bereich Selbstmanagement von Erkrankungen angesiedelt sind, wobei es sich in Gruppe 3a um sozusagen „nichtinvasives“ Selbstmanagement handelt, bei dem nicht direkt technisch in die Erkrankung eingegriffen wird. Letzteres landet in Gruppe 3b, hier sind die Prototypen telekardiologische Implantate, Apps für die Therapiesteuerung sowie klassische diagnostische Apps.

Welcher Nutzennachweis für welche Kategorie?
Die Klassifikation an sich ist nicht wahnsinnig überraschend. Auf die Anlehnung an die WHO wurde schon hingewiesen. Die Aufteilung erinnert auch an Klassifikationen, die Zulassungsbehörden vornehmen, um zu entscheiden, welche Softwareanwendungen Medizinprodukte sind und welche nicht bzw. wenn es sich um Medizinprodukte handelt, in welcher Klasse sie einsortiert werden. CE-Klassifizierung und NICE-Klassifizierung sind aber nicht deckungsgleich. Das NICE diskutiert die Frage der Nutzenbewertung und damit der Erstattung vielmehr unabhängig vom Medizinproduktestatus, und das macht die Empfehlungen auch so interessant: Das NICE koppelt seine Klassifikation an Anforderungen für Nutzennachweise. Die Frage, um die es dem NICE geht, lautet: Was muss eine Anwendung – Medizinprodukt oder nicht – nachweisen, um im NHS eingesetzt werden zu können, und das heißt im staatlichen britischen Gesundheitswesen auch, bezahlt zu werden?

Für Anwendungen in Gruppe 1 sind diese Anforderungen ziemlich simpel. Im Wesentlichen müssen bei diesen Anwendungen, bei denen es nicht um persönliche medizinische Patientendaten geht, die Nutzerakzeptanz und die praktische Relevanz nachgewiesen werden. Dazu reichen dem NICE Pilotierungen und Anwenderbefragungen. Auf Stufe 2, wo das Monitoring dazukommt und damit auch mit nicht administrativen Patientendaten gearbeitet wird, kommt der Nachweis von Zugriffs- und Datensicherheit hinzu, außerdem müssen je nach Anwendung Reliabilität von Daten – bei Mess-Applikationen – beziehungsweise die Aktualität von Daten – bei Informations-Applikationen – demonstriert werden.

Erst in Gruppe 3 werden die geforderten Nachweise im engeren Sinne medizinisch. Applikationen für die präventive Verhaltensänderung sowie für das Selbstmanagement müssen nachweisen, dass sie gängigen Theorien von Verhaltensänderungen entsprechen. Es muss also qualitative Evidenz vorgelegt werden, damit nicht irgendeine Anwendung ins System kommt, die irgendeiner dubiosen Theorie folgt. Zusätzlich ist quantitative Evidenz in Form einer Vergleichsstudie nötig, wobei hier explizit offen gelassen wird, um welche Art der Vergleichsstudie es sich handelt. Es wird für präventive Verhaltens-Apps also nicht zwingend eine randomisierte Studie verlangt. Letztere wird zwingend erst für Gruppe-3b-Anwendungen erforderlich.

„Gute Orientierung für Deutschland“
Wie anfangs ausgeführt, sind in Deutschland der G-BA und das IQWiG für die Nutzenbewertung zuständig. Aus Sicht des IQWiG hat sich Prof. Dr. Stefan Sauerland in einem Kommentar im Rahmen des Netzwerks Evidenzbasierte Medizin mit den NICE-Empfehlungen auseinandergesetzt. Sie böten eine gute Orientierung für Deutschland. Es zeige sich, dass bei Weitem nicht alles „voll“ – sprich randomisiert – geprüft werden müsse, sondern die Anforderungen den Risiken angepasst werden könnten und sollten. „Für die Mehrzahl der digitalen Gesundheitsanwendungen ist keine klinische Evidenz erforderlich“, so Sauerland. Dieser Satz aus den Federn der Gralshüter der evidenzbasierten Medizin in Deutschland ist an sich schon bemerkenswert. Klinische Evidenz ist Sauerland zufolge nötig für Prävention, Selbstmanagement, aktives Monitoring, Diagnostik und Therapie. Und auch dann, das sagt zumindest das NICE, braucht es nicht immer eine randomisierte Studie.

Text: Philipp Grätzel von Grätz, Chefredakteur E-HEALTH-COM

Für das ePaper anmelden

Nutzenbewertung: Welche Evidenz wofür?

Meistgelesen

Für das ePaper anmelden

Nutzenbewertung: Welche Evidenz wofür?

Meistgelesen

Cookies auf e-health-com.de