Die Entwicklung eines KI-basierten Decoders, der die Gehirnaktivität in einen kontinuierlichen Textstrom übersetzen kann, gilt als wissenschaftlicher Durchbruch. Zum ersten Mal wird es dadurch möglich, die Gedanken einer Person nicht-invasiv zu lesen.
Der Decoder konnte Sprache mit verblüffender Genauigkeit rekonstruieren, während Menschen einer Geschichte lauschten – oder sich sogar im Stillen eine Geschichte vorstellten – und dies nur mithilfe von Daten eines MRT-Scans, anders als bisherige Systeme zur Sprachdekodierung, die chirurgische Implantate benötigten. Der jüngste Fortschritt eröffnet die Aussicht auf neue Wege zur Wiederherstellung der Sprache bei Patient:innen, die aufgrund eines Schlaganfalls oder einer Erkrankung der motorischen Neuronen, die für die Bewegung von Muskeln zuständig sind, nicht mehr kommunizieren können.
Dr. Alexander Huth, ein Neurowissenschaftler, der die Forschung an der Universität von Texas in Austin leitet, sagt: „Wir waren ziemlich überrascht, dass es so gut funktioniert. Ich habe 15 Jahre lang daran gearbeitet ... es war also schockierend und aufregend, als es endlich funktionierte.“
Die Forschung überwindet zudem eine grundlegende Einschränkung der MRT: Die Technik kann zwar die Hirnaktivität an einem bestimmten Ort mit unglaublich hoher Auflösung abbilden, es besteht aber eine inhärente Zeitverzögerung, die eine Verfolgung der Hirnaktivität in Echtzeit unmöglich macht.
Programme wie ChatGPT machen es möglich
Die Verzögerung ist darauf zurückzuführen, dass MRT-Scans die Reaktion des Blutflusses auf die Hirnaktivität messen, die innerhalb von etwa 10 Sekunden einen Spitzenwert erreicht und dann wieder zum Ausgangswert zurückkehrt, was bedeutet, dass selbst der leistungsstärkste Scanner dies nicht verbessern kann. „Es handelt sich um einen verrauschten, trägen Stellvertreter für die neuronale Aktivität“, so Huth.
Diese harte Grenze hat die Interpretation der Hirnaktivität als Reaktion auf natürliche Sprache erschwert, da sie einen „Mischmasch von Informationen“ über einige Sekunden verteilt liefert.
Das Aufkommen großer Sprachmodelle (die Art von Künstlicher Intelligenz, die OpenAIs ChatGPT zugrunde liegt) eröffnete jedoch einen neuen Zugang. Diese Modelle sind in der Lage, die semantische Bedeutung von Sprache in Zahlen darzustellen, so dass die Wissenschaftler:innen untersuchen konnten, welche Muster neuronaler Aktivität Wortfolgen mit einer bestimmten Bedeutung entsprachen, anstatt zu versuchen, die Aktivität Wort für Wort abzulesen.
Die Künstliche Intelligenz trainieren
Der Lernprozess war intensiv: Drei Freiwillige mussten jeweils 16 Stunden lang in einem Scanner liegen und Podcasts hören. Der Decoder wurde darauf trainiert, die Gehirnaktivität mit der Bedeutung abzugleichen, indem ein großes Sprachmodell, GPT-1, ein Vorläufer von ChatGPT, verwendet wurde.
Später wurden dieselben Teilnehmer:innen gescannt, als sie eine neue Geschichte hörten oder sich vorstellten, eine Geschichte zu erzählen. Der Decoder wurde verwendet, um den Text allein aus der Gehirnaktivität zu erzeugen. In etwa der Hälfte der Fälle stimmte der Text eng, manchmal sogar genau, mit den beabsichtigten Bedeutungen der ursprünglichen Wörter überein.
„Unser System arbeitet auf der Ebene von Ideen, Semantik und Bedeutung“, so Huth. „Das ist der Grund, warum wir nicht den genauen Wortlaut herausbekommen, sondern das Wesentliche“.
Als einer Teilnehmerin beispielsweise die Worte „Ich habe noch keinen Führerschein“ vorgespielt wurden, übersetzte der Decoder sie als „Sie hat noch nicht einmal angefangen, das Fahren zu lernen“. In einem anderen Fall wurden die Worte „Ich wusste nicht, ob ich schreien, weinen oder weglaufen sollte. Stattdessen sagte ich: ,Lass mich in Ruhe!‘“ wurden als „Ich fing an zu schreien und zu weinen, und dann sagte sie einfach: ,Ich habe dir gesagt, du sollst mich in Ruhe lassen.‘“ dekodiert.
Die Teilnehmer:innen wurden auch gebeten, sich vier kurze Videos ohne Ton anzusehen, während sie sich im Scanner befanden. Der Decoder war in der Lage, ihre Gehirnaktivität zu nutzen, um einige der Inhalte genau zu beschreiben, heißt es in der Veröffentlichung in Nature Neuroscience. „Für eine nicht-invasive Methode ist dies ein echter Sprung nach vorn im Vergleich zu dem, was bisher gemacht wurde: Typischerweise einzelne Wörter oder kurze Sätze“, sagte Huth.
Schädliche Nutzung verhindern
Manchmal lag der Decoder falsch und hatte Probleme mit bestimmten Aspekten der Sprache, einschließlich Pronomen. „Er weiß nicht, ob es sich um die erste oder dritte Person, männlich oder weiblich handelt“, so Huth. „Wir wissen nicht, warum er darin so schlecht ist.“
Der Decoder war personalisiert, und wenn das Modell an einer anderen Person getestet wurde, war die Anzeige unverständlich. Es war auch möglich, dass Teilnehmer, auf die der Decoder trainiert worden war, das System unterliefen, indem sie zum Beispiel an Tiere dachten oder sich im Stillen eine andere Geschichte vorstellten.
Jerry Tang, Doktorand an der University of Texas in Austin und einer der Mitautoren, sagte: „Wir nehmen die Bedenken sehr ernst, dass die Technologie mit bösen Absichten verwendet werden könnte, und haben uns bemüht, dies zu vermeiden. Wir wollen sicherstellen, dass die Menschen diese Art von Technologien nur dann nutzen, wenn sie es wollen und wenn es ihnen hilft“.
Prof. Tim Behrens, ein Wissenschaftler für Computational Neuroscience (dt.: Informationsverarbeitende Neurowissenschaften) an der Universität Oxford, der nicht an der Arbeit beteiligt war, bezeichnete sie als „technisch äußerst beeindruckend“ und sagte, sie eröffne eine Fülle von experimentellen Möglichkeiten, darunter das Lesen von Gedanken von jemandem, der träumt, oder die Untersuchung, wie neue Ideen aus der Hintergrundaktivität des Gehirns hervorgehen. „Mit diesen generativen Modellen kann man auf einer neuen Ebene sehen, was im Gehirn vorgeht“, sagte er. „Das bedeutet, dass man wirklich etwas Tiefgründiges aus der MRT herauslesen kann“.
Prof. Shinji Nishimoto von der Universität Osaka, der Pionierarbeit bei der Rekonstruktion visueller Bilder aus der Hirnaktivität geleistet hat, bezeichnete die Arbeit als einen „bedeutenden Fortschritt“. „Die Arbeit zeigt, dass das Gehirn kontinuierliche Sprachinformationen während der Wahrnehmung und der Vorstellung auf kompatible Weise darstellt“, sagte er. „Dies ist eine nicht unbedeutende Erkenntnis und kann eine Grundlage für die Entwicklung von Gehirn-Computer-Schnittstellen sein.“
Das Team möchte nun prüfen, ob die Technik auch auf andere, tragbare Systeme zur Bildgebung des Gehirns, wie die funktionelle Nahinfrarotspektroskopie (fNIRS), angewendet werden kann.
Was ist Ihre Meinung?
Kommentare einblendenDiskutieren Sie mit.