Große Datenmengen, große Chancen?

Digitale Revolution Wie Big Data medizinische Forschung revolutioniert.
Bei diesem Beitrag handelt es sich um ein Blog aus der Freitag-Community

Massenüberwachung, Großkonzerne, unheimliche Werbung. Das sind die vermutlich häufigsten Assoziationen, die man hat wenn man Big Data hört. Dass Big Data nicht immer gleich 'big brother' ist, zeigen viele Beispiele aus der Forschung. Eines davon wollen wir Ihnen heute vorstellen.



Doch zuerst wollen wir uns genauer mit Big Data beschäftigen. Was ist daran so revolutionär und was erwartet uns noch?

Big data bezeichnet die massenhafte und dynamische Erzeugung, Verknüpfung und Auswertung großer Datenmengen. Diese Technologie gewinnt in allen möglichen Lebensbereichen an Bedeutung. Vermutlich eines der ersten Gebiete in dem dies auch Normalbürger mitbekommen haben, ist die Werbung. Es ist schon manchmal umheimlich wie genau Google und Facebook uns kennen und entsprechend maßgeschneiderte Werbung anzeigen. Besonders besorgniserregend ist es dann, wenn die eine Firma weiß, was ich bei der anderen bestellt habe. Es gibt sogar Pilotstudien, die an Hand des Einkaufsverhalten von Frauen eine Prognose erstellt haben, ob diese Frau schwanger ist.

Im Extremfall weiß die Werbefirma also vor der Frau, dass sie schwanger ist.



Zugegebenermaßen keine besonders wünschenswerte Vorstellung. Doch wie ist das möglich und warum erst jetzt?

Sie haben eventuell schon einmal vom Mooreschen Gesetz gehört das besagt, dass sich die Transistorendichte auf einem Computerchip alle 18 Monate verdoppelt. Gleichzeitig wächst sowohl die Anzahl an Computern, als auch deren Speicherkapazität sowie die globale Vernetzung in ähnlich rasantem Tempo. Ein Ende dieser Entwicklung ist nicht abzusehen.



Wenn Ihnen auf Facebook nun Werbung angezeigt wird, die erstaunlich gut ihren Interessen entspricht, dann hat das genau einen Grund. Statistik. Niemand kann wirklich wissen, ob sie eher einen Pauschalurlaub oder eine Individualreise bevorzugen. Aber je mehr Einzelmerkmale man über Sie sammelt, desto besser wird die Prognose über Sie. Acxiom, eine der größten Datensammelfirmen weltweit, verfügt beispielsweise über eine Datenbank mit 700 Millionen Menschen mit jeweils bis zu 3000 Einzelmerkmalen.



Das sind ungeheure Mengen an Daten, die auch möglichst zeitnah ausgewertet werden müssen. Und genau da wird die Rechenleistung gebraucht. Nicht die Sammlung von Daten ist das Schwierige, sondern deren Auswertung. Das wiederum braucht nicht nur Rechenleistung, sondern auch findige Programmierer, die dem Computer beibringen, wo und wie sie nach was suchen sollen. Diese Algorhytmen arbeiten dann weitestgehend autonom und teilweise so gut, dass kaum ein Mensch ihre Arbeit ersetzen könnte, wenn er sie denn überhaupt noch versteht.



Jetzt fragen Sie sich zurecht, warum so viel Aufwand betrieben wird, nur um Ihnen die passende Werbung einzublenden. Doch wie anfangs erwähnt gibt es auch Beispiele, in denen es sich uns einfacher erschliesst, warum Big Data auch eine große Chance sein kann.



Immunhistochemie ist eine Methode bei der bestimmte Proteine und andere Strukturen durch markierte Antikörper sichtbar gemacht werden. Das Verfahren ist vorallem in der Indentifikation und Klassifizierung von Tumorzellen wichtig, weil man dazu genau wissen muss, wo in der Zelle sich ein Protein befindet. Das Problem ist, dass dieses Verfahren bisher sehr zeitaufwendig war und nur schwer vergleichbare Ergebnisse lieferte.



Unter dem Stichwort Digital Pathology findet nun eine Transformation der Immunhistochemie statt, an der sich die verschiedenen Dimensionen von Big Data verdeutlichen.

Zuallererst wurde die Erhebung der Daten verändert. Anstatt wie früher jede Probe manuell unter dem Mikroskop zu betrachten und direkt auszuwerten, werden jetzt automatisch digitale Aufnahmen der ganzen Probe erstellt, bevor überhaupt ein Mensch einen Blick darauf geworfen hat. Dies hat den Vorteil, dass Proben im Zweifel erneut betrachtet werden können und auch einfach um die ganze Welt geschickt werden können. Einige Kliniken haben sich bereits als Dienstleister etabliert und spezialisieren sich auf die Auswertung von fremden Bildern. Das hat den Vorteil, dass die Qualität der Diagnostik steigt und auch Kosten gesenkt werden können.



Hier taucht allerdings ein vielleicht unerwartetes Problem auf. Die Verknüpfbarkeit der Daten ist nur gewährleistet wenn sie kompatibel sind. In den Anfängen der Digital Pathology haben gleich mehrere Hersteller entsprechende Geräte und Software auf den Markt gebracht, deren Bildformate aber jeweils nur mit der eigenen Software zu bearbeiten waren.



Mahadev "Satya" Satyanarayanan, experimenteller Informatiker an der Carnegie Mellon University, entwickelte daraufhin mit seinem Team das Programm OpenSlide, das mit allen Herstellern kompatibel ist. Das illustriert sehr gut ein weiteres Charakteristikum der digital revolution , das bisher unerwähnt blieb: die Offenheit der Daten. Die Arbeit mit Daten ist meist desto effizienter, je mehr Daten zur Verfügung stehen. In Wissenschaften wie der Experimentalphysik oder der Klimaforschung hat sich deshalb schon seit einiger Zeit die Erkenntnis durchgesetzt, dass Alle von einem möglichst großen, gemeinsamen Datenpool profitieren.



Dies ermöglichte auch weitere Fortschritte im Bereich der Verknüpfbarkeit von Daten. Satya entwickelte beispielsweise, aufbauend auf OpenSlide, das Programm Diamond, das halbautomatisch die Datenbank nach bestimmten Kriterien durchforsten kann. Dort sind die reinen Bilddaten unter anderem mit Medikation, Behandlungsdauer und Behandlungsort verknüpft.



Doch auch die beste Erhebung und Verknüpfung bleibt nur Makulatur, wenn die Auswertung der Daten ungenau bleibt. Wie bereits erwähnt, ist diese besonders rechenleistungsintensiv. Eine automatisierte Bildauswertung ist zwar schon seit Jahren auf dem Markt, wird bisher aber vorallem in der Grundlagenforschung angewendet. Eine Steigerung der Ressourcen macht diese Technik nun aber auch für den alltäglichen Klinikgebrauch einsetzbar. Während Menschen beispielsweise den Einfärbungsgrad einer Substanz bisher nur grob in wenige Kategorien einteilen konnten, kann der Computer dies in unzählbar vielen Abstufungen.



Erste Erfolge wurden durch diese neue Genauigkeit der Diagnostik bereits erzielt. Durch die nun genau angebbaren quantitativen Unterschiede konnte gezeigt werden, dass ein bestimmtes Medikament bei 10-20% der Brustkrebspatienten gar nicht wirken kann.

David Rimm, Professor für Pathologie in Yale, zieht daraus den Umkehrschluss und ist der Auffassung, dass es mit Sicherheit auch Medikamente gibt, die bei 95% der Patienten nicht wirken können und deshalb bisher verworfen wurden. Big Data ermöglicht also nicht nur personalisierte Werbung, sondern auch personalisierte Medizin.

Gut möglich, dass wir bald ganz neue Therapien zur Verfügung haben, die früher klinische Studien nur deshalb nicht bestanden haben, weil die in Frage kommenden Probanden nicht genau genug abgegrenzt wurden.

22:46 06.03.2016
Dieser Beitrag gibt die Meinung des Autors wieder, nicht notwendigerweise die der Redaktion des Freitag.
Geschrieben von

Jan Schmutzler

Schreiber 0 Leser 0
Avatar

Kommentare