Spracherkennung goes KI: E-HEALTH-COM

Der neueste Trend in Sachen Spracherkennung ist der Einsatz neuronaler Netze, mit denen die
Anbieter die Erkennungsraten deutlich steigern können. Doch Studien zufolge nutzt die Mehrheit der Ärzte nach wie vor das klassische Diktat. Die Nachfrage nach digitaler Spracherkennung steigt jedoch mit dem Generationswechsel in der Ärzteschaft. Gefragt sind bei den „Digital Natives“ vor allem mobile Lösungen. In Zukunft könnte es mithilfe künstlicher Intelligenz sogar ganz ohne Diktiergeräte gehen.

Diktieren war schon immer schneller als Tippen. Noch schneller ist die Spracherkennung – die automatische Umwandlung von Gesprochenem in Text. Lange Zeit hatte die Spracherkennung mit dem Manko zu kämpfen, dass sie zu wenige Wörter erkannte. Eine Trefferquote von 90 Prozent hörte sich zwar zunächst gut an, bedeutete aber, dass jedes zehnte Wort aufwendig von Hand korrigiert werden musste. Das hat sich inzwischen geändert. Die Hersteller konnten die Erkennungsraten ihrer Programme erheblich steigern, indem sie sukzessive ihre traditionellen mathematischen Modelle für die Spracherkennung durch neuronale Netze ersetzten.

Im Kommen: Neuronale Netze
„2010 haben wir mit der Umstellung begonnen“, erklärt Dr. Nils Lenke, der beim Marktführer Nuance in der Konzernforschung in Aachen verschiedene Projekte im Bereich der Künstlichen Intelligenz (KI) koordiniert. „Die neueste Version unserer Spracherkennung Dragon arbeitet jetzt ausschließlich mit neuronalen Netzen.“ Die akustische Modellierung – die Analyse der Aussprache durch Wahrscheinlichkeitsberechnungen der kleinsten Lautelemente einer Sprache – war bereits in der Vorgängerversion KI-basiert. Jetzt übernehmen neuronale Netze bei Dragon auch die Sprachmodellierung – die Analyse der akustisch erkannten Begriffe hinsichtlich der Häufigkeit der vorkommenden Wörter und deren Abfolge. „Dies verbessert die Erkennungsrate bei medizinischen Texten, bei denen das Vokabular oft ähnlich zusammengesetzt ist“, erklärt Lenke.

Zusätzlich überlässt Nuance auch das Sprachverstehen den neuronalen Netzen. Beim Sprachverstehen geht es darum, mittels Software die relevanten Informationen zum Beispiel aus einem Arztbrief für die Rechnungsstellung herauszuziehen. Dies geschieht mithilfe von Regeln, die beim Vorliegen bestimmter Wörter auf eine bestimmte Information schließen. Beim klassischen Sprachverstehen haben Menschen diese Regeln von Hand erstellt, was sehr aufwendig war. „Diese Systeme sind sehr gut und nach wie vor im Einsatz“, sagt Lenke. „Aber wenn wir neuronale Netze verwenden, können wir diese Regeln viel schneller an die individuellen Bedürfnisse eines Krankenhauses anpassen.“

Aktuelle Studienlage
Trotz dieser großen Fortschritte ist die Spracherkennung noch nicht wirklich in den Niederungen des Gesundheitswesens angekommen. Eine Studie des Meinungsforschungsinstituts YouGov im Auftrag des Anbieters Olympus SDS unter 200 Klinikärzten in Deutschland ergab, dass erst neun Prozent Spracherkennung verwenden. 36 Prozent nutzen digitales Diktat und – Mehrfachnennungen waren möglich – 22 Prozent arbeiten noch mit analogen Diktiergeräten.

Auf europäischer Ebene sehen die Zahlen etwas besser aus: „Die Befunderstellung erfolgt in schätzungsweise 20 bis 30 Prozent aller Fälle mithilfe der Spracherkennung und zu 70 bis 80 Prozent mit dem klassischen Diktat“, sagt Thomas Opolski, Vice President & Regional Director bei Speech Processing Solutions – der Firma, die Philips Diktierlösungen entwickelt und vertreibt. Zwischen den einzelnen Ländern scheint es große Unterschiede in der Anwendung von Sprach-
erkennung zu geben. Opolski berichtet, dass in einigen skandinavischen Ländern die Spracherkennung im Gesundheitswesen weit stärker verbreitet sei als beispielsweise in Österreich, der Schweiz oder Italien. Technikaffinität spielt dabei wahrscheinlich eher eine untergeordnete Rolle. „Spracherkennung wird dort eingesetzt, wo man effizient sein muss und Organisationsstruktur, personelle
Situation oder Arbeitsabläufe dies erfordern“, erklärt Opolski. Und in Skandinavien ist eine Arztstunde erheblich teurer als beispielsweise in Italien.

Aber auch die Akzeptanz der Benutzer und der Verwendungsgrad spielen eine große Rolle. In vielen Fällen verwenden nach ihrer Einführung nur ein Drittel der Ärzte Spracherkennung, was nicht an der eingesetzten Hard- oder Software liegt, sondern daran, dass bei der Einführung zu wenig Wert auf die Usability und das Training der Nutzer gelegt wurde. In besonders krassen Fällen scheitert sogar das digitale Diktat samt Spracherkennung an der Akzeptanz der Ärzte. Es gibt Institutionen, wo eine kleine Gruppe „unbeugsamer“ Ärzte nach wie vor analoge Diktiergeräte benutzt, wobei die Bandkassetten im Schreibbüro abgeliefert werden. Dort ist keiner glücklich über diesen Mischbetrieb, weiß Opolski.

Trend zur Mobilität
Carsten Marx vom Dresdner Anbieter MediaInterface sieht indes eine Trendwende: „Seit mehreren Jahren wird die Spracherkennung von den Krankenhäusern in allen Bereichen verstärkt nachgefragt.“ Marx führt das gesteigerte Interesse nicht nur auf die besseren Erkennungsraten zurück – MediaInterface setzt bei seiner Spracherkennungstechnologie in SpeaKING Dictat ebenfalls neuronale Netze ein –, sondern vor allem auf einen Generationswechsel bei den Ärzten. Den Digital Natives fehlen die Berührungsängste, weil sie digitale Sprachassistenten und Smartphones wie selbstverständlich verwenden. Da ist es auch naheliegend, dass sich ein verstärkter Trend hin zu mobilen Geräten und zur plattformunabhängigen Spracherkennung abzeichnet. Zurzeit diktieren aber noch circa 90 Prozent der Ärzte in ein stationäres Mikrofon. In vielen Schweizer Krankenhäusern überwiegen die mobilen Diktiergeräte, weiß Marx: „Das hängt im Wesentlichen damit zusammen, dass in der Schweiz zum einen die Ärzte bei der Erstellung der Dokumentation noch verstärkt durch Schreibkräfte unterstützt werden und zum anderen die Integration des Diktiersystems in das Krankenhausinformationssystem oftmals nicht so tief ist.“

Den Trend hin zur Mobilität bei der Spracherkennung beobachtet auch Holger Ladewig, Geschäftsführer beim Anbieter DFC-SYSTEMS. Allerdings klaffen Wunsch und Wirklichkeit noch weit auseinander. „Die Ärzte würden am liebsten ihr Smartphone zusammen mit einer App für die Spracherkennung benutzen“, sagt Ladewig, „obwohl die Mikrofontechnik nicht vergleichbar ist mit der in mobilen Diktiergeräten und die Erkennungsrate entsprechend niedriger ausfällt.“ Und auch wenn sie nicht direkt am Krankenbett oder während einer Visite diktieren möchten, besteht bei vielen Ärzten der Wunsch, bereits unterwegs im Krankenhaus – trotz oftmals mangelhafter WLAN-Abdeckung – mittels Spracheingabe Informationen zu erfassen, die dann im Arztzimmer bereits in der elektronischen Patientenakte zur Verfügung stehen. „Wir arbeiten an Lösungen, um solche Prozessketten zu realisieren“, sagt Ladewig. Im Rahmen eines Förderprogrammes entwickelt sein Unternehmen mit Medizinern zum Beispiel eine Technik, die es Ärzten erlaubt, am mobilen Diktiergerät per Sprachsteuerung, analog der Sprachsteuerung/-bedienung in neuen Automobilen, den Namen ihres Patienten aus einer Liste aufzurufen und einen strukturierten Befund in die elektronische Patientenakte zu diktieren. „Eine der Herausforderungen bei diesem Projekt besteht darin, zwischen dem gesprochenen Steuerbefehl und dem zu erfassenden Text für die Patientenakte zu differenzieren“, erklärt Ladewig.

In Zukunft ohne Diktiergerät?
Die Frage nach der Art des Diktiergeräts – ob stationär, mobil oder Smartphone-App – stellt sich in ein paar Jahren vielleicht nicht mehr. Denn Nuance plant mit „Ambient Speech“ bereits den nächsten Schritt. Das Unternehmen forscht an dieser zukünftigen KI-Anwendung, bei der ein Arzt nicht einmal mehr in ein Mikrofon diktieren muss: Mehrere im Behandlungsraum platzierte Mikrofone sollen automatisch das Arzt-Patienten-Gespräch aufzeichnen. KI-Software beginnt schon während der Untersuchung, alle relevanten Informationen aus dem Gespräch herauszuziehen, um sie beispielsweise in die Patientenakte zu übernehmen oder damit einen Arztbrief vorzubereiten.

Kombiniert mit einem intelligenten Assistenten soll Ambient Speech dem Arzt sogar ermöglichen, Informationen quasi auf Zuruf zu erhalten: „Such mir mal den Bluttest vom letzten Jahr raus.“ Welcher Arzt braucht da noch eine Tastatur?

Text: Dr. Michael Lang
arbeitet als Wissenschaftsjournalist in Mannheim mit den Schwerpunkten Medizin, Gesundheits-IT und Medizintechnik.

Für das ePaper anmelden

Spracherkennung goes KI

Meistgelesen

Für das ePaper anmelden

Spracherkennung goes KI

Meistgelesen

Cookies auf e-health-com.de