Mehr Zahlen für das Wort

Culturomics GoogleLab soll den Geisteswissenschaften neue Möglichkeiten eröffnen. Sie kann auch die Zensur in bestimmten Ländern quantifizieren

Wie viele Wörter der englischen Sprache haben es nie in die Wörterbücher geschafft? Wie hat sich das Wesen der Berühmtheit in den vergangenen 200 Jahren verändert? Wie schneiden Wissenschaftler und Schauspieler in Bezug auf ihren Einfluss auf die Populärkultur ab?

Das sind nur ein paar der Fragen, die Wissenschaftler und Laien nun mittels eines neuen Online-Tools beantworten können, das Google zusammen mit Wissenschaftlern der Harvard University entwickelt hat. Die riesige durchsuchbare Datenbank wird als Schlüssel zu einer neuen Epoche der Recherchemöglichkeiten in den Geistes-, Sozial- und Sprachwissenschaften gefeiert und trägt den Namen Culturomics

Sie umfasst mehr als fünf Millionen Werke – Belletristik wie Sachbücher gleichermaßen – die zwischen 1800 und 2000 veröffentlicht wurden – das sind ungefähr vier Prozent aller jemals gedruckten Bücher. Dr. Jean-Baptiste Michel und Dr. Erez Lieberman Aiden von der Harvard University haben das Suchinstrument entwickelt, das Forschern die Möglichkeit an die Hand geben soll, eine große Bandbreite kultureller Trends in der Geschichte zu quantifizieren.

„Das Interesse an computergestützten Ansätzen in den Geistes- und Sozialwissenschaften besteht seit den 1950er Jahren“, sagt Michel, der als Psychologe am Program for Evolutionary Dynamics der Harvard Uni mitarbeitet. „Doch die Versuche, quantitative Methoden in das Studium kultureller Phänomene mit einfließen zu lassen, sind bislang immer daran gescheitert, dass keine passenden Daten zur Verfügung standen. Jetzt verfügen wir über eine gewaltige Datenmenge, die durch eine benutzerfreundliche Schnittstelle zugänglich ist und jedem offen steht.“

Bei ihrer ersten Analyse der Datenbank fanden die Forscher heraus, dass die englische Sprache in jedem Jahr um ungefähr 8.500 Wörter erweitert wird, so dass der englische Wortschatz zwischen 1950 und 2000 um ungefähr 70 Prozent gewachsen ist. Die meisten dieser Wörter erscheinen allerdings nicht in Wörterbüchern. „Wir gehen davon aus, dass etwa 52 Prozent des englischen Wortschatzes – die Mehrzahl der Wörter, die in englischsprachigen Büchern benutzt werden – aus lexikalischer „schwarzer Materie“ besteht, die nicht in Standardwörterbüchern vermerkt ist“, schrieben sie in Science (Das vollständige Heft ist nach kostenloser Online-Registrierung zugänglich).

Die Wissenschaftler konnten ebenfalls zeigen, wie Wörter sich veränderten, zum Beispiel ein Trend hin zur regelmäßigen Flexion ursprünglich unregelmäßiger Verben wie „burnt“, „smelt“ oder „spilt“, die in den USA ihren Anfang nahm. „Die unregelmäßigen Formen stemmen sich im britischen Englisch zwar gegen ihren Untergang, aber auch im Vereinigten Königreich wechseln jedes Jahr so viele Menschen wie die Stadt Camebridge Einwohner hat von burnt zu burned über. Amerika ist der Exportweltmeister sowohl was reguläre als auch, was unregelmäßige Verben angeht.“

Das Team untersuchte auch, wie sich die Konstituenten von Berühmtheit und Ruhm in den vergangenen zwei Jahrhunderten verändert haben. Indem sie „ergoogleten“, wie oft die Namen berühmter Persönlichkeiten in den Büchern erwähnt wurden, konnten sie zeigen, dass Berühmtheiten in der Mitte des 20. Jahrhunderts tendenziell jünger und bekannter waren als im 19. Jahrhundert, ihr Ruhm aber nicht so lange anhielt. Im Jahr 1950 erlangten Prominente ihre Berühmtheit im Durchschnitt im Alter von 29, um 1800 stellte sich die massenweise Bekanntheit erst mit durchschnittlich 43 Jahren ein. „Die Menschen erlangen heute mehr Bekanntheit als jemals zuvor, aber sie werden auch so schnell wieder vergessen wie noch nie“, fassten die Forscher diese Beobachtung zusammen.

„Mark Twain gehört zu den bekanntesten Schriftstellern und gleichzeitig auch zu den bekanntesten Persönlichkeiten überhaupt. Unter den amerikanischen Präsidenten ist es Theodore Roosevelt.“ Aiden warnt jedoch vor allzu kurzschlüssigen direkten Vergleichen. „Man vergleicht Äpfel und Birnen, wenn man Präsidenten von Anfang bis Mitte des 20. Jahrhunderts mit denjenigen vergleicht, die vor ihnen im Amt waren. Allein weil ihre Amtszeit länger zurückliegt, hatten sie viel mehr Zeit erwähnt zu werden.“

Mitte des 20. Jahrhunderts wurden die bekanntesten Schauspieler im Durchschnitt mit 30 berühmt, während Schriftsteller warten mussten, bis sie 40 waren. Politiker hingegen wurden erst mit 50 berühmt. „Die Wissenschaft macht einen nicht so leicht berühmt, Physiker und Biologen können zwar ebenso berühmt werden wie Schauspieler, brauchen aber viel länger. Mathematiker hingegen bleiben selbst auf dem Höhepunkt ihres Ruhms vielen unbekannt.“

Für alle, die der kulturellen Ausbreitung bestimmter Denker nachspüren, dürfte es interessant sein, dass Freud öfter in der digitalen Bibliothek auftaucht als Galileo, Darwin oder Einstein.

Die Datenbank kann auch die Zensur in einzelnen Ländern quantitativ belegen. Der jüdische Künstler Marc Chagall wurde beispielsweise in der gesamten deutschen Literatur der Jahre 1936 bis 1944 nur ein einziges Mal erwähnt, während die Aufführung seines Namens in der englischsprachigen Literatur im selben Zeitraum um das Fünffache zunahm. Auch in der chinesischen Literatur lässt sich Zensur in Bezug auf den Tiananmenplatz nachweisen, in russischen Büchern in Bezug auf Leo Trotzki.

Der Direktorin des Centre for Digital Humanities am University College London Claire Warwick zufolge wenden Geisteswissenschaftler die Technik der quantitativen Evaluierung, wie Michel und Aiden sie beschreiben, bereits seit mehren Jahrzehnten an. „Der Unterschied besteht darin, dass das Tool nicht nur die Untersuchung einiger hunderttausend oder einiger Millionen Wörter, sondern mehrerer Millionen Bücher ermöglicht. Daraus könnten einige bis dahin unerwartete Ideen entstehen.“ Die Datenbank ist mit 500 Milliarden Wörtern mehrere tausend Mal größer als jedes existierende Suchinstrument und mit einer Buchstabenfolge, die tausendmal länger ist als das menschliche Genom. Mit 72 Prozent ist die Mehrzahl der Bücher in englischer Sprache, wesentlich weniger Exemplare sind auf Französisch, Spanisch, Deutsch, Chinesisch, Russisch und Hebräisch.

„In den Naturwissenschaften hat die Möglichkeit der Untersuchung riesiger Datenmengen zu faszinierenden neuen Entdeckungen geführt, die anders nicht möglich gewesen wären. Noch weiß man nicht, ob das auch in den Geisteswissenschaften der Fall sein wird“, meint Warwick. Laut Aiden wird die Datenbank es zwar ermöglichen, die quantitative Dimension zu ergründen, mit der ein Thema in der Vergangenheit diskutiert wurde, sie kann aber nichts über die mit den Begriffen verbundenen Gefühle oder Einstellungen zu Tage fördern. Man dürfte zum Beispiel nicht nur daran interessiert sein, wie umfangreich die Diskussion der Sklaverei in der Literatur war, sondern ob die Einstellung der Leute sich qualitativ, vom Positiven zum Negativen hin verändert hat.“ Eine solche Verfeinerung wäre seiner Meinung nach möglich, gäbe es bei den meisten der im 20. Jahrhundert veröffentlichten Bücher nicht ein Problem mit dem Copyright. Für das 19. Jahrhundert erwartet er diese Zusatzfunktion allerdings innerhalb der kommenden paar Jahre.

Auch hofften sie darauf, mehr Bücher in noch mehr Sprachen erfassen und auch Zeitungen, Manuskripte, Briefe, Webseiten und Blogs mit aufnehmen zu können, so Michel. Die Culturomics-Datenbank könne aber lediglich als Einstieg in eine kulturwissenschaftliche Untersuchung dienen. „Man kann damit die Ausgangspunkte für bestimmte Untersuchungen gewinnen, die Daten dürfen aber nie zu einer umfassenden Wahrheit verabsolutiert werden. Den Veränderungen könnten linguistische oder soziale Veränderungen zugrunde liegen. Man sollte äußerst vorsichtig mit der Auswertung dieser Daten umgehen.

Übersetzung: Holger Hutt

Liebe Leserin, lieber Leser,

dieser Artikel ist für Sie kostenlos.
Unabhängiger und kritischer Journalismus braucht aber auch in diesen Zeiten Unterstützung. Wir freuen uns daher, wenn Sie den Freitag hier abonnieren oder 3 Ausgaben gratis testen. Dafür bedanken wir uns schon jetzt bei Ihnen!

Ihre Freitag-Redaktion

14:00 20.12.2010
Geschrieben von

Alok Jha | The Guardian

Der Freitag ist Syndication-Partner der britischen Tageszeitung The Guardian
Schreiber 0 Leser 14675
The Guardian

Ausgabe 42/2021

Hier finden Sie alle Inhalte der aktuellen Ausgabe

3 Ausgaben kostenlos lesen

Der Freitag ist eine Wochenzeitung, die für mutigen und unabhängigen Journalismus steht. Wir berichten über Politik, Kultur und Wirtschaft anders als die übrigen Medien. Überzeugen Sie sich selbst, und testen Sie den Freitag 3 Wochen kostenlos!

Kommentare 5