ETH-Forschende können mit MetaGraph DNA-Datensätze durchsuchen. Symbolbild: Warren Umoh/Unsplash

ETH-Werkzeug ermöglicht schnelles Durchsuchen von DNA

(CONNECT) Forschende der ETH haben ein Werkzeug entwickelt, mit dem sich die Rohdaten aller in Datenbanken gespeicherten DNA-Sequenzen durchsuchen lassen. Bisher mussten Forschende bei der Suche auf beschreibende Metadaten zurückgreifen oder die jeweiligen Datensätze herunterladen, um an die Rohdaten zu gelangen. Mit dem erstmals 2020 vorgestellten und seither laufend verbesserten ETH-Werkzeug MetaGraph lassen sich die Datensätze nun hingegen mit einer Volltextsuche durchforsten, informiert die ETH in einer Mitteilung.

„Es handelt sich um eine Art Google für DNA“, wird Gunnar Rätsch, Datenwissenschaftler am Institut für Informatik an der ETH, in der Mitteilung zitiert. Interessierte können MetaGraph bereits für eigene Abfragen nutzen. Rätsch und seine Mitforschenden stellen MetaGraph zudem als Open-Source-Tool frei zur Verfügung.

In einer am 8. Oktober im Fachmagazin „Nature“ veröffentlichten Studie wird die Funktionsweise des Werkzeugs dargelegt. Vereinfacht erklärt indiziert MetaGraph die Daten und stellt sie in komplexen mathematischen Graphen dar. „Mathematisch gesehen handelt es sich um eine riesige Matrix mit Millionen von Spalten und Billionen von Zeilen“, erläutert Rätsch. Dabei verknüpfen er und seine Mitforschenden die Roh- und Metadaten und komprimieren sie um etwa das 300-Fache.

Etwa die Hälfte der weltweit verfügbaren Sequenz-Datensätze wurde bereits für MetaGraph indiziert. Die übrigen Datensätze sollen bis Ende Jahr folgen. ce/hs