CloseReading
14.07.2013 | 18:24 8

Pop-Tarts des Terrors

Big-Data-Überwachung Das Department of Homeland Security hat eine Liste mit 377 Schlagwörtern veröffentlicht, nach denen sie das Netz durchforstet. Aber kann das die "echte" Liste sein?

Pop-Tarts des Terrors

Foto: The U.S. Army / Flickr (CC)

Das Wort Big Data habe ich vor circa drei Monaten zum ersten Mal gehört. Das Wort PRISM hörte ich dann gut zwei Monate später. Aber um PRISM mit Big Data zu assoziieren, brauchte mein Hirn nur Bruchteile einer Sekunde.

Ein Artikel von Bernd Graff in der aktuellen Wochenendausgabe der Süddeutschen Zeitung läuft nach ähnlichem Muster ab. Abgedruckt ist eine Liste von 377 Schlagwörtern, die das Department of Homeland Security (DHS) kürzlich freigeben musste.

Es sind Schlagwörter, nach denen das DHS den Datenaustausch im Internet durchforstet. 377 Schlagwörter, „bei deren Verwendung die Agenten tätig werden und berichten sollen.“ (SZ).

Herr Graff wundert sich darüber, dass neben recht offensichtlichen Begriffen wie „terror“, „jihad“ oder „dirty bomb“ unter anderem auch die Wörter „sick“, „snow“ oder „wave“ in dieser Liste auftauchen. Selbst wenn man akzeptiert, dass das DHS neben Terrorakten eben auch nach Klimakatastrophen („snow“) und Krankheiten („sick“) Ausschau hält, scheinen diese Begriffe auf den ersten Blick so allgemein, dass man sich fragen muss, welche konkreten Erkenntnisse daraus bitteschön gewonnen werden sollen.

Doch dann erkennt Graff, dass des Rätsels Lösung etwas mit Big Data zu tun haben muss:

„Die Liste des DHS deutet daraufhin, dass nicht ein einzelnes Instrument zur Aufzeichnung von Verdachtsmomenten im Kampf gegen den Terror und Katastrophen eingesetzt wird, sondern ein gestaffeltes, ineinander übergreifendes Instrumentarium zur Erhebung und Auslese von Big Data Verwendung finden muss. […] Denn anders als Hinweisverstärker zur Verdachtsfindung machen die Suchbegriffe des DHS keinen Sinn.“ (SZ)

In diesem Licht betrachtet erscheint die Liste also als Beweis dafür, dass das DHS (und somit wohl auch die NSA) Big Data Methoden verwendet, nicht in der eigens angeschafften Datenflut zu ertrinken. (Wer hätte es gedacht? Ohne Big Data müsste die Zahl der Angestellten ja vermutlich im Millionenbereich liegen). Ich würde dieses Argument aber gerne auf den Kopf stellen: Big Data ist der Beweis dafür, dass diese Liste nicht die „echte“ Liste sein kann.

Vor drei Monaten kaufte ich mir nämlich ein Buch mit dem Titel Big Data: A Revolution That Will Transform How We Live, Work, and Think. Darin erläutern die Autoren Viktor Meyer-Schönberger und Kenneth Cukier, was Big Data so revolutionär macht - was es so grundlegend von allen bisherigen Erkenntnismethoden unterscheidet.

Eines der wichtigen Alleinstellungsmerkmale von Big Data ist, dass es im Gegensatz zu allen gängigen empirischen Methoden nicht darauf angewiesen ist, im Voraus eine Hypothese aufzustellen. Big Data ist nämlich in der Lage, in zuvor unerreichbarem Umfang nach Korrelationen zu suchen, ohne sich über das „Warum?“ zu scheren. So tauchen Zusammenhänge auf, an die im Vorfeld niemand gedacht hätte.

Bezeichnenderweise spielt auch in diesem Buch das Thema „Klimakatastrophe“ eine entscheidende Rolle:

„In 2004 Walmart peered into its mammoth databases of past transactions: what item each customer bought and the total cost, what else was in the shopping basket, the time of day, even the weather. By doing so, the company noticed that prior to a hurricane, not only did sales of flashlights increase, but so did sales of Pop-Tarts, a sugary American breakfast snack. So as storms approached, Walmart stocked boxes of Pop-Tarts at the front of stores next tot he hurricane supplies.“

Klar, dieses Beispiel bezieht sich auf eine Situation, in der schon alle Bürger über den drohenden Schneesturm informiert sind. Dennoch macht es im übertragenden Sinn eins deutlich: Wenn die Schlagwortliste echt ist und tatsächlich auf Big-Data-Berechnungen beruht – wo stecken dann die „Pop-Tarts“ der Terroristen?

Die Liste enthält jede Menge extrem vager Items  aber sie enthält absolut keine überraschenden. Sie enthält nur das Offensichtliche. Zum Beispiel taucht in ihr so gut wie kein einziger Slang-Begriff auf, den Terroristen oder Drogendealer (auch diese sind im Visier der DHS) für ihre „Produkte“ verwenden würden.

Somit stellt die jetzige Veröffentlichung der Liste auch keine Gefahr für die DHS dar. Es ist nämlich äußerst schwer, sich einen Terroristen vorzustellen, der erst nach dieser Veröffentlichung zu dem Schluss gelangt: „Hey, vielleicht sollte ich in meinen Mails nicht offen über „suicide bombers“ sprechen.“

Das Potenzial von Big Data liegt nicht darin, die Zettabytes an Daten nach altbekannten Reizwörtern wie „nuclear“ zu durchsuchen. Wenn überhaupt liegt das große Potenzial darin, allein durch Korrelationen herauszufinden, welche Codewörter Terroristen für „nuclear“ verwenden!

Ich kann mir schlichtweg nicht vorstellen, dass der größte Überwachungsapparat der Welt dieses Potenzial ungenutzt lässt. Viel besser kann ich mir vorstellen, dass das DHS eine Liste veröffentlicht, die zwar nicht unbedingt gefälscht ist – aber eben nur das ohnehin Offensichtliche preisgibt.

Viktor Mayer-Schonberger und Kenneth Niel Cukier: Big Data: A Revolution That Will Transform How We Live, Work, and Think.

Kommentare (8)

chrislow 14.07.2013 | 23:36

Klar, in etwa so wird es sein.

 

Nur preisgeben, was sowieo logisch klingt und vom Pöbel assoziiert wird.

 

Das gilt auchfür die derzeitgen skandalösen Überwachungsgeständnisse im Medienäther.

Das diese dort besprochenen Methoden und Strategien "nicht" den derzeit wirksamsten "Höchststandart" darstellen, davon darf man ausgehen.

Meine eigene Erfahrung hat auch einiges zu erkennen gegeben, was sichumso besser für eine absolute Echtzeitüberwachung und gleichzeitig auch Kontrolle eignet. Und das hat schon was "übergriffiges" - weils sich um direkte Einbeziehung des Gehirns handelt, was da abgeht. Quasi eine Vorstufe der Gehirn-Computer-Schnittstelle.  Dabei das gesamte Gehirn mit einem elektrosensiblen Stoff "kontaminiert" wird, welches dann auf Gehirnströme und möglicherweise sogar auch auf Nebenfunktionen der Handynetze reagiert.

 

Interessant war das hier:

http://www.scinexx.de/wissen-aktuell-16272-2013-06-18.html

 

Metallische Nanopartkel als polarisierbare Funktionsbestandteile eines neuronalen Systems wären dann keine Spinnerei mehr. Reichte im Gehirn die eigene Energie nicht mehr aus, um konsitente (Eigen)Funktionen aufrecht zu erhalten, dann käme es zu einer "Umpolung" des Potenzials und ... nach dem Artikel in Scinexx.de zu einer Zellschädigung, welche den Zelltot der Neuronen zur Folge hätte.

 

Interessant auch, dass der PH-Wert dabei relevant sei.

Der ist schonmal sowieso relevant, weil Metalle/Minerale sich im Körper in saurem Biotop auflösen und an anderer Stelle/ bei erhöhung des Wertes wieder kristallisieren, so sie nicht vorher ausgeschieden wurden ode4r anderweitig angereichert sind.

chrislow 14.07.2013 | 23:50

Man muß sich das so vorstellen, dass das Gehirn mit Strömen funktioniert und diese dann Elektrische Felder erstellen, welche wiederum elektrosensible Substanzen anziehen.

 

Wenn also (Schwer)Metalle in den Körper gelangen, diese im Zweifel zuerst sich im Gehirn anreichern, weil dasGehirn wie ein Elektromagnet wirkt.

 

Erst, wenn das Gehirn keine dazu notwendige elektrische Aktivität im entsprechendem Energieniveau mehr leistet,  diese Stoffe anderswo sich anreichern oder ausgeschieden werden können.  Mir unklar, wie eine solche technisch simple Tatsache bis heute niemanden so recht bewusst ist.

Auch unklar wäre, welche qualitativen Funktionen das dann im Gehirn zerstört oder irgend beeinflusst. ...?

Aussie42 15.07.2013 | 03:20

@closereading

"Eines der wichtigen Alleinstellungsmerkmale von Big Data ist, dass es im Gegensatz zu allen gängigen empirischen Methoden nicht darauf angewiesen ist, im Voraus eine Hypothese aufzustellen. Big Data ist nämlich in der Lage, in zuvor unerreichbarem Umfang nach Korrelationen zu suchen, ohne sich über das „Warum?“ zu scheren. So tauchen Zusammenhänge auf, an die im Vorfeld niemand gedacht hätte."

So neu ist das Verfahren nun wieder nicht. Es heisst "Cluster-Analyse", eine nicht-parametrisches Statistik. die langem benutzt wird,   u.a. um heuristische Konzepte um aus grossen Stichproben "abzuleiten". Da die Programme rechenintensiv sind, konnte man frueher nur kleinen Stichproben <1000 und und so ca. 10 Variablen rechnen um so ca. 20 Cluster zu erzeugen, die man durch Augenschein auf Relevanz fuer ein Untersuchungsprojekt untersuchen kann. Soweit so bekannt.

 

Mit den heutigen Rechnern kann man dafuer  sehr  groesse Datensaetze mit vielen Variablen verwenden, die aber auch eine sehr groesse Zahl von Clustern erzeugen, die man nicht mehr "zu Fuss" aussortieren kann.  Der Trick ist, die "interessanten" Cluster von den 'uninteressanten' und von den 'zufaelligen' (Hintergrundrauschen)   zu trennen. Dazu werden heute heuristische Algorithmen verwendet, also Computersimulationen, die wiederum nur auf sehr grossen Rechnern laufen, sodass man Schlussendlich die "plausiblen" von den "unplausiblen"  Simulationsergebnissen (Konzepten)  trennen kann. Am Ende hat man Konzepte die durch einen Satz von Variblen definiert sind, die anscheinend gar nichts miteinander zu tun haben, weil redundante Korellationen 'rausgerechnet' wurden.  Diese Merkmale sind aber dennoch geeignet sind, um Leute zu identifizieren, fuer die beispielsweise ein Konzept wie  "potentieller Unterstuetzer von Terroristen" zutrifft.

Notabene, es kann gut sein dass, dass es der indentifizierten Person  gar nicht in den Sinn kaeme, Terroristen zu unterstuetzen. Oder aber, dass die identifizierte Person bereits ein Attentat vorbereitet. (So war es offensichtlich mit den Leuten in Boston)

Um solche "Fehldiagnosen" zu vermeiden, muessen die Geheimen noch mehr Daten ueber die Welt-Bevoelkerung sammeln und auch ihre Simulationsalgorithmen weiter "verbessern". Daran wird mit Sicherheit gearbeitet.

 

Die Liste der 377 Suchbegriffe kann also durchaus echt sein, allerdings fehlen mit grosser Sicherheit eine grosse Zahl der fuer die Analysen relevanten Woerter.

 

CloseReading 15.07.2013 | 16:24

Danke für die schlauen Ergänzungen!

So neu ist das Verfahren nun wieder nicht. Es heisst "Cluster-Analyse", eine nicht-parametrisches Statistik.

Stimmt, "Alleinstellungsmerkmal" war in meinem Artikel wohl zu hoch gegriffen. Neu ist ja nicht unbedingt die Methode, sondern die Tatsache, dass durch Zunahme der Rechenleistung und der digitalen Datenmenge sich nun ziemlich neue Anwendungsbereiche eröffnen.

Um solche "Fehldiagnosen" zu vermeiden, muessen die Geheimen noch mehr Daten ueber die Welt-Bevoelkerung sammeln und auch ihre Simulationsalgorithmen weiter "verbessern". Daran wird mit Sicherheit gearbeitet.

Interessant an Meyer-Schönbergers Buch ist, dass seiner Meinung nach Big-Data-Algorithmen gar nicht darauf aus sind, Fehler zu vermeiden: "In many situations that are cropping up today, allowing for imprecision - for messiness - may be a positive feature, not a shortcoming.  [...] Although we may be able to overcome the errors if we throw enough resources at them [...] in many cases it is more fruitful to tolerate error than it would be to work at preventing it."

Für mich ist eine wichtige Implikation daraus: Natürlich haben die Geheimdienste ein Interesse daran, der Öffentlichkeit zu suggerieren, ihre Datensammelwut erlaube ihnen höhere Präzision. Tatsächlich aber gibt es einen Trade-off zwischen Präzision und Datenmenge, und die geringere Präzision kann dabei willentlich in Kauf genommen werden.

Die Liste der 377 Suchbegriffe kann also durchaus echt sein, allerdings fehlen mit grosser Sicherheit eine grosse Zahl der fuer die Analysen relevanten Woerter.

Wenn ich das richtig verstehe, sind mit "für die Analysen relevanten Wörter" die "rausgerechneten redundanten Korrelationen" gemeint. Wenn dies der Fall ist, so ist meiner Meinung nach die Liste aber weiterhin massiv manipulativ irreführend. Denn durch deren Veröffentlichung soll ja suggeriert werden, dass wirklich "nur" nach diesen 377 Begriffen durchforstet wird.

Gold Star For Robot Boy 15.07.2013 | 16:57

Ich habe eine Frage zu PRISM und der Nutzung von Suchbegriffen.

IM Friedrich erklärte vorgestern in den Tagesthemen:

” Doch, ich weiß sehr gut dass es ein Programm PRISM gibt, dass dieses Programm keine flächendeckende Überwachung von Inhalten vornimmt, sondern ganz gezielt auf,äh, Beschluss, äh äh, des Gerichts,ähm, die Möglichkeit eröffnet nach bestimmten Suchbegriffen, Terrorismus, Verbreitung von Massenvernichtungsmitteln,oder, äh, Organisierte Kriminalität, Inhalte von Kommunikation zu überprüfen und mit diesem Programm sind wohl auch schon sehr erfolgreich, äh, Attentate und Anschläge verhindert worden.”

Wie kann er behaupten, dass PRISM keine flächendeckende Überwachung von Inhalten durchführt, wenn nach Suchbegriffen gefiltert wird ? Oder werden nur die Betreffzeilen von Mails, die ja zu den Metadaten gehören, auf Suchbegriffe überprüft ?

Wie soll denn ein Antrag überhaupt schnell von einem Richter überprüft werden, wenn ein Kommunikationsvorgang abgefangen wurde und eine "terroristische Bedrohung" unmittelbar bevorsteht ?

 

 

 

Aussie42 16.07.2013 | 02:28

Danke fuer ihre freundliche Antwort, denn ich hatte mich im Kommentar doch etwas "ausgemaert" ueber Clusteranalyse und Simulation etc.

Was Sie schreiben ueber die gewollte nicht-Praezision kann ich mir gut vorstellen. Das waere dann ein sog. Alpha-Fehler der Analyse, d.h. es werden mehr "Ergebnisse" produziert werden, als es tatsaechlich in den Daten "gibt". Kurz: Alpha-Fehler produzieren mehr Verdaechtige. (Prima, aus der Sicht der Geheimen.)

Es gibt aber in statistischen Untersuchungen auch einen Beta-Fehler, bei dem Zusammenhaenge nicht erkannt werden, bzw. falsch eingeordnet werden. (Das ist den Geheimen wohl bei den Boston-Attentaetern passiert, die ja durchaus bekannt waren, die aber  als "Spinner" eingestuft wurden.)

Sowas passiert eben nur, wenn man den Alpha-Fehler vernachlaessigt, und dann mit unscharfen Kategorien arbeitet. 

Darum sind die Geheimen ziemlich in der Klemme: einerseits moechte sie moeglichst viele Verdaechtige haben, andererseits muessen sie politisch nachweisen, dass sie die "gefaehrlichen Leute" von den "ungefaehrlichen" unterscheiden koennen. (Diese Klemme sei den Jungs von Herzen gegoennt.)

Sie haben Recht. Die 377 Begriffe sollen harmlos aussehen. Aber gerade das macht sie so verdaechtig. Warum sollen sich die Geheimen mit solchen "treudoofen" Begriffen beschaeftigen? Neben dem Verschweigen der "trenncharfen" Begriffe sind aber auch die veroeffentlichten nicht one.

Wenn man sich mal Gruppen vorstellt, auf die 10 oder 20 dieser Begriffe gleichzeitig zutrifft und dann noch einen trennscharfen Begriff hinzu nimmt,  kann man sich schnell vorstellen, dass so einzelne Personen oder sehr kleine Gruppen "aussortiert" werden koennen.

Das gefaehrliche der heutigen Situation besteht m.E. nicht darin, dass ueberall Daten gesammelt und gepoolt werden. Dass machen die Geheimen mit Begeisterung und bedenkenlos schon sehr lange.

Eine neue "Qualitaet" der Beobachtung  haben die Super-Rechner hergestellt, die grosse Datenmengen mit Verfahren bearbeiten koennen, die man frueher, mit kleineren Rechnern, nicht einsetzen konnte.

Darum die Hype mit den Schach-Computern, der Wettlauf zwischen den Produzenten um den Schnellsten und groessten Supercomputer. usw.

rechercheuse 16.07.2013 | 08:35

 

 Brinkbäumer beschreibt die USA im neuen SPIEGEL als kranken, verwundeten und verstörten Staat: "Seit 2005 sind durch Terrorismus pro Jahr im Schnitt 23 Amerikaner ums Leben gekommen, die meisten im Ausland. 'Mehr Amerikaner sterben durch herabfallende Fernseher, schreibt Nicholas Kristof in der 'New York Times', 'und 15-mal so viele sterben, weil sie von der Leiter stürzen.' Seit 2001 haben die USA acht Billionen Dollar für Militär und Heimatschutz ausgegeben." Aber Hans Peter Friedrich fühlte sich in Washington nicht gedemütigt. Er war froh, dass man ihn überhaupt empfangen hatte. Und ein paar Zahlen hat er ja doch mitbekommen: Wieder daheim in Deutschland verkündete Friedrich, es seien weltweit 45 Anschläge durch Informationen des US-Geheimdienstes verhindert worden, 25 davon in Europa und fünf in Deutschland. Da blieb eigentlich nur die Frage offen, was die größere Beleidigung für die deutsche Öffentlichkeit war: die Tatsache, dass die Amerikaner es nicht einmal für nötig hielten, ihre Bespitzelung der Deutschen zu rechtfertigen? Oder die Micky-Maus-Zahlen des Innenministers, für die es keine Belege gibt und die vielleicht zutreffen oder eben auch nicht? Im italienischen Grosseto wird gerade der Prozess gegen Francesco Schettino geführt. Er hatte als Kapitän die "Costa Concordia" vor der Insel Giglio auf Grund gesetzt. Und dann hatte er laut Anklage Schiff und Passagiere im Stich gelassen. Im Spionageskandal ist Angela Merkel unser Capitano Schettino. Sie lässt die Deutschen im Stich. http://www.spiegel.de/politik/deutschland/jakob-augstein-ueber-angela-merkel-und-den-spionage-skandal-a-911146.html

CloseReading 16.07.2013 | 22:02

Auch relevant für
@Aussie42
@Gold Star For Robot Boy

Gute Frage, die wahrscheinlich nur Herr Friedrich selbst beantworten kann. Ich muss hier aber anmerken, dass wir nicht ohne weiteres NSA und DHS durcheinanderbringen dürfen. Mein Artikel (und auch die von SZ und Daily Mail) beziehen sich auf das DHS-Dokument. Rückschlüsse auf die NSA sind zwar möglich, aber eben nur deduktiv-spektulativ.

Ich habe mir - angeregt durch das diverse Feedback - das veröffentlichte DHS-Dokument nun noch einmal etwas genauer angeschaut (zuvor hatte ich mich ja hauptsächlich auf die beiden Artikel in der SZ und der Daily Mail konzentriert).

Dabei komme ich nun doch zu dem Schluss, dass die 377 Schlagwörter wohl tatsächlich "nur" dafür genutzt werden *öffentliche* Internetinhalte zu scannen. (Wobei Twitter-Feeds und "öffentliche" Facebookkonten (wie viele User haben das noch?) eben auch hierunter fallen.)

Die DHS nennt das "Media Monitoring Capability Reporting". Sie hält also in Echtzeit Ausschau nach Trends: Wenn mehere Twitter-Feeds urplötzlich von einer Gasexplosion sprechen, so ist das ein deutlicher Hinweis, dass hier tatsächlich etwas Größeres vorgefallen ist und die "rote Alarmleuchte" springt an.

Der entscheidende Unterschied ist: Wenn sich dieses Monitoring tatsächlich ausschließlich auf öffentliche Internetquellen stützt, ist das weitaus weniger verwerflich.

Nun kann man natürlich einwenden: "Klar, aber sie behaupten wahrscheinlich nur, dass sie nur öffentliche Quellen durchkämmen."

Angesichts der Schlagworte würde ich aber sagen: Diese Wörter eigenen sich im Grunde auch nur für öffentliche Quellen. Sie sind für Situationen geeignet, in denen plötzlich ungewöhnlich viele Menschen das Wort "blizzard" benutzen - eben weil ein unerwartetes Unwetter vor ihrer Tür losbricht.

Sie sind aber (wie im Artikel dargelegt) schlichtweg ungeeignet, um geheime Pläne von Terroristen (die eben Codewörter benutzen würden) zu erspähen.

Deshalb würde ich mein Urteil ein bisschen korrigieren und sagen: Diese Liste kann durchaus "echt" sein - sofern sie sich auf öffentliche Quellen bezieht. Das schließt aber natürlich nicht aus, dass es auch eine Liste für *private* Kommunikationswege gibt - und diese würde dann, so meine Vermutung, neben "blizzards" eben auch "Pop-Tarts" beinhalten.