Die Bioinformatiker des Deutsche Zentrums für Diabetesforschung (DZD) nähert sich COVID-19 von der Visualisierungsseite. Worum geht es bei Ihrem Projekt COVID*Graph?
Mit COVID*Graph wollen wir Wissenschaftlerinnen und Wissenschaftlern einen freien Zugriff auf die neuesten Daten rund um das Coronavirus ermöglichen. Öffentlich zugängliche COVID-19 Datenquellen, Patentschriften sowie Datensätze aus Genom- und molekularbiologischen Datenbanken werden verknüpft und in einem sogenannten Knowledge Graph anschaulich dargestellt. Damit ist es jetzt Forschern möglich, die Daten im Kontext zueinander zu analysieren und nach Zusammenhängen und Mustern zu suchen.
Inwieweit unterscheidet sich das Projekt von anderen COVID-bezogenen Visualisierungsprojekten?
Bei vielen Projekten geht es darum, die Verbreitung des Virus darzustellen oder Infektionswege zu visualisieren. Unser Projekt zielt hingegen auf die medizinische Forschung. In den letzten Monaten wurden sehr viele Arbeiten über das Coronavirus publiziert. Es fehlt jedoch ein Tool, mit der sich diese Daten sinnvoll sichten lassen. Die Visualisierung im COVID*Graph macht es möglich, wissenschaftliche Publikationen iterativ zu erforschen. Im Vergleich zu vielen anderen Projekten, handelt es sich zudem um eine gemeinnützige Initiative, die in Teamarbeit mit IT-Experten, Institutionen und Unternehmen entstanden ist und keinen kommerziellen Nutzen verfolgt.
Das Projekt läuft seit mehreren Wochen. Wie umfangreich ist die Datenbank mittlerweile, und wie aufwendig ist die Pflege?
In einer Graphdatenbank werden einzelne Daten als Knoten, die Verbindung zwischen den Knoten als Linien bzw. Kanten dargestellt. Derzeit umfasst der COVID*Graph mehr als 10 Mio. Knoten und über 25 Mio. Kanten. Das ist jedoch nur eine Ist-Aufnahme, denn der Graph soll weiterwachsen. Neue Datensätze werden kontinuierlich eingepflegt. Das ist auf Grund des Graph-Modells wesentlich einfacher als bei anderen Datenbanken. Eine neue Publikation lässt sich über das Kanten-Knoten-Prinzip jederzeit hinzufügen, ohne dass große Änderungen nötig sind. Auch der Skalierbarkeit sind grundsätzlich keine Grenzen gesetzt.
Beim Covid*Graph Projekt kooperiert das DZD mit Neo4j, das ein breiter aufsetzendes Programm namens Graphs4Good unterhält, von dem der Covid*Graph ein Teil ist. Was genau ist das für ein Programm?
Das Graphs4Good-Programm unterstützt Projekte, die mit Hilfe von Graph Analytics gesellschaftliche wichtige Aufgaben lösen oder Missstände aufdecken wollen. Auch COVID-19 relevante Graph-Projekte sind mittlerweile Teil des Programms. Damit erhalten Anwender, die Graphtechnologie im Kampf gegen das Coronavirus einsetzen, kostenlos Zugriff auf die Enterprise-Version der Neo4j-Datenbank. Neo4j bietet zudem Hilfe bei der Vermittlung von Mentoren, dem Teilen von Datensätzen und dem Austausch innerhalb der Community an.
Für wen ist die Covid*Graph Datenbank unter welchen Konditionen zugänglich?
Die öffentliche Version des COVID-Knowledge Graphen ist für jeden frei und kostenlos zugänglich. Zugangslink einschließlich Login-Daten finden sich auf der COVID*Graph-Webseite. Die Visualisierungs-App steht zudem auf GitHub zur Verfügung. Wissenschaftler, Forscher und Entwickler sind herzlich dazu eingeladen, sich am Projekt zu beteiligen. Wir freuen uns auf neue Use Cases aus der Praxis, die wir gemeinsam mit Hilfe des Knowledge Graphen bearbeiten.