Manuel Ebert
Ausgabe 5116 | 29.12.2016 | 06:00 14

Subjektivität skalieren

Digitalisierung Algorithmen sind unfehlbar. Die Daten, auf denen ihre Entscheidungen basieren, sind es nicht

Subjektivität skalieren

Fakten, Fakten, Fakten – oder etwa nicht?

Foto: Zuma Press/Imago

Ludwig Wittgenstein erklärte vor 95 Jahren in seinem Opus Magnum Tractatus logico-philosophicus: „Die Welt zerfällt in Tatsachen.“ Der junge Wittgenstein glaubte an eine atomare Wahrheit, an ein Universum, das auf umspaltbaren Fakten gebaut ist. In späteren Werken widerrief er seine früheren Ideen, hielt sie für naiv, für eine akademische Verwirrung. Der Nachwelt ist das egal. Sie hält Wittgensteins Analysen für so messerscharf wie Robert Pattinsons Wangenknochen in Twilight. Beide werden wohl nie der populären Mittelmäßigkeit ihrer frühen Werke entrinnen können.

Dennoch hatte Wittgenstein mit seinem analytischen Zugang zu Sprache und Wahrheit einen großen Einfluss auf Generationen von Philosophen, Linguisten, und Mathematikern – unter anderen jene, die später Computerwissenschaft als wissenschaftliches Feld begründen würden. Deswegen ist es nicht verwunderlich, dass Informatik heute als „exakte“ Wissenschaft wahrgenommen wird. Computer berechnen und analysieren, sie sind ohne Zweifel deterministisch und unparteiisch, machen keine Messfehler und haben ein perfektes Gedächtnis.

Das sollte eigentlich beruhigend sein, insbesondere wenn man sich vor Augen führt, welche Verantwortung Computern heute obliegt: Sie entscheiden, welche Werbung wir sehen und wo, ob wir den Kredit für das neue Auto bekommen, wen wir als Nächstes nach links oder rechts swipen, ob wir oben in unserer Timeline zuerst Baby-Fotos unserer Sitznachbarin im Deutsch-Leistungskurs 2002 sehen oder das Update unseres Großonkels, der einen Artikel der Jungen Freiheit teilt.

Und wenn der Computer entschieden hat, dass er uns einen Immobilienkredit mit 1,19 Prozent effektivem Jahreszins anbietet, wird das zu einem Fakt, einer der Wahrheiten, aus denen unsere Realität gebaut ist. Computer aber sind willenlose Knechte. Die eigentlichen Entscheidungen treffen Algorithmen, Wenn-dieses-dann-jenes-Kochrezepte für Datensuppen.

Wie viel verstehen wir wirklich davon, was im Computer passiert? Heute sind viele Algorithmen „lernfähig“, wie Kochrezepte, die sich selbst automatisch mit akribischer Detailversessenheit anpassen, bis sie ihren Michelin-Stern verdienen.

Wer studiert Mathe?

Stellen wir uns vor, Sie arbeiten für die örtliche Universität und haben das Ziel gesetzt bekommen, mehr Schülerinnen für ein Physik- oder Mathestudium zu begeistern, und sie über Stipendienmöglichkeiten zu informieren. Alle Schülerinnen der Stadt einzeln anzuschreiben ist nicht im Budget, also müssen Sie sich auf einige konzentrieren. Sie entschließen sich dazu, Schülerinnen anzuschreiben, die einen naturwissenschaftlichen Leistungskurs belegen oder in Mathe oder Physik besser als 2,5 stehen. Damit hätten Sie einen kleinen Algorithmus entwickelt: eine Reihe von Regeln, alle von Hand geschrieben.

Ein anderer Ansatz: Sie speisen dem Computer alle Daten ein, die Sie über Schülerinnen haben – Zeugnisnoten der letzten Jahre, Kurswahl, Postleitzahl und Hobbies, die sie auf Facebook angegeben haben. Das Gleiche tun Sie für aktuelle und ehemalige Mathe- und Physikstudentinnen. Ein mathematisches Modell soll dann ausrechnen, welche der Schülerinnen am ehesten dem Profil der Studentinnen entsprechen, welche also am wahrscheinlichsten ein Mathestudium beginnen werden. Die Regeln, die ein Computer mit so einem maschinellen Lernprozess finden kann, können beliebig komplex sein. Zum Beispiel:

Senden Sie den Werbeprospekt, wenn ((1,2 x aktuelle Mathe-Note) + (0,7 x Durchschnitt der letzten vier Zeugnisse) - (0,1 x Summe der letzten drei Geschichts-Noten) + (0,6, wenn die Postleitzahl in 03, 07 oder 11 endet) + (0,2 für jedes Hobby, das mit Tieren zu tun hat)) kleiner als 3 ist.

Für Menschen sieht die Regel arbiträr aus, aber im Ergebnis bekommen Sie auf Ihre Briefe an Schülerinnen mehr Antworten. In meiner täglichen Arbeit habe ich es oft mit Systemen zu tun, die hunderte Faktoren einbeziehen, und sie in tausenden von verschachtelten Gleichungen gegeneinander abwägen. Ob das einen traditionellen mathematischen Ansatz wie eine lineare Regression bedeutet oder ein sogenanntes neuronales Netz, wie es in den letzten zwei Jahren durch „Deep Learning“ wieder popularisiert wurde, ist letztlich irrelevant: Wir Menschen können unmöglich nachvollziehen, warum ein datengetriebener Algorithmus in einem bestimmten Fall die eine oder die andere Entscheidung trifft. Algorithmen schaffen Fakten, und obwohl sie sich aus diesen kleinen, atomaren Wahrheiten zusammensetzen, werden wir ihre Beschaffenheit nie verstehen können. Maschinelle Fakten können nur akzeptiert werden.

An sich sind solche lernfähigen Algorithmen etwas Gutes: Sie helfen uns, neue Künstler zu entdecken, die zu unserem Musikgeschmack passen, das Wetter vorherzusagen, Versicherungskosten zu minimieren. Mehr noch: Algorithmen schützen vor Vorurteilen und Vetternwirtschaft. Statt Stipendiatinnen von Lehrern aussuchen zu lassen, die in all ihrer Menschlichkeit voreingenommen und fehlbar sind, basieren unsere Entscheidungen auf Fakten. Herkunft, Hautfarbe, politische Ausrichtung oder Modegeschmack spielen für Algorithmen keine Rolle.

Wer wohnt wo?

Schön wär’s! Denn obwohl Algorithmen unfehlbar sind – die Daten, auf denen ihre Entscheidungen basieren, sind es nicht. Nehmen wir das obige Beispiel: Obwohl wir nur objektive, neutrale Daten verwenden, verbergen sich in ihnen oft soziale Wirklichkeiten. Postleitzahlen etwa sind stark mit Einkommensklasse und Bildungsniveau verbunden. Hobbys verraten etwas über Weltanschauung und politische Ausrichtung. Obwohl wir uns also Mühe geben, keine potenziell diskriminierenden Daten zu verwenden, sind diskriminierende Faktoren trotzdem oft in den Daten eingebettet.

Problematisch wird es, wenn wir nicht darüber nachdenken, wo die Daten herkommen und wofür sie benutzt werden.

Hierbei unterscheiden Programmierer drei Anwendungen für lernfähige Algorithmen: Deskriptive Systeme beschreiben die Welt, wie sie ist. Sie helfen uns, Zusammenhänge zu finden und historische Daten zu verstehen. Zum Beispiel, dass Schülerinnen aus den Postleitzahlenbereich 07 eher ein Mathestudium anfangen als ihre Altersgenossinnen im Gebiet 04. Prädiktive Systeme benutzen diese Zusammenhänge, um Vorhersagen zu machen, etwa dass die Zahl der Mathestudentinnen im Bereich 04 weiter steigen, in 07 aber langsam zurückgehen wird. Kurz gesagt, deskriptive System beantworten die Frage, was passiert ist, und prädiktive die, was passieren könnte. Bleiben präskriptive Systeme, die sagen, was wir tun sollten.

In unserem Beispiel passiert genau das: Das System gibt uns vor, welche Schülerinnen wir für ein naturwissenschaftliches Studium anwerben sollten. Die Daten, die wir benutzen, wurden aber von Stipendiatinnen generiert, die vor dem Algorithmus ihr Studium angefangen haben – also die, die im schlimmsten Fall durch Lehrerwillkür und die richtigen Kontakte ein Stipendium ergattert haben. Ein Algorithmus, der mit diesen Daten trainiert wurde, kann nichts anderes tun, als mehr Schülerinnen zu finden, die ins gleiche Schema passen. Statt Willkür abzuschaffen, haben wir sie automatisiert. Statt objektive Tatsachen zu schaffen, haben wir Subjektivität skaliert.

Stipendienvergabe ist ein harmloses Beispiel. Automatisierte Einstellungstests sind in vielen Unternehmen die Norm, und obwohl es verboten ist, jemanden aufgrund von Geschlecht oder Behinderungen nicht einzustellen, fließen diese Daten unbemerkt in Tests ein. Das US-Justizministerium musste zugeben, dass „No-Fly“-Listen auf lernfähigen Algorithmen beruhen statt auf belastbaren Beweisen. Ähnlich steigt die Zahl der „Pre-Crime“- Einheiten: Algorithmen, die Verbrechen vorhersagen und Polizeipräsenz in „gefährdeten Gebieten“ zu bestimmten Zeiten präventiv erhöhen.

Was lässt sich gegen algorithmische Willkür tun? Entgegen der Intuition müssen wir „diskriminierende“ Faktoren wie Geschlecht oder Herkunft aktiv einbeziehen, statt sie zu ignorieren – um nachher prüfen zu können, ob unsere Algorithmen voreingenommen sind. Nur so können wir uns von alten Mustern lösen, die sich stets noch in Daten widerspiegeln. Anstatt Algorithmen die Geschichte nur schneller wiederholen zu lassen, müssen wir als Menschen entscheiden, welche Daten wir eben nicht benutzen wollen. Und später prüfen, ob sie sich nicht doch eingeschlichen haben.

Manuel Ebert ist Autor der Freitag-Kolumne „Tal der Träumer“ und Data Scientist. Sein Unternehmen berät Firmen im Silicon Valley

Dieser Beitrag erschien in Ausgabe 51/16.

Kommentare (14)

na64 29.12.2016 | 08:35

Gefällt mir gar nicht was Sie da schreiben. Das klingt alles nach dem Motto, ich kann und brauch ja selber nichts mehr zu entscheiden, denn die Auswahl meiner Zugehörigkeit an Raum und Platz wo ich mich zu entfalten habe und soll ist schon vorher festgelegt, Widerstand gegen diese Entscheidung wird mit Entzug von Lebensqualität bestraft. Das tötet kreatives Denken. Weiterhin erzeugt dieses Verhalten ein Gefühl von Enge und endet später in Gewalt. Die einzige Möglichkeit die dann bleibt, mit Fake News eine Fake Welt schön reden. Illusion ist Alles.

na64 29.12.2016 | 16:13

Das was ich in diesem Beitrag herauslesen kann habe ich nur am Rand angedeutet. Mein Wissen darüber vergleiche ich auch mit anderen aktuellen Beiträgen und Literatur. Keinen Beitrag nehme ich so wie er da steht als gegeben hin und wenn ich einen Kommentar dazu schreibe, dann ist dies mein Startschuss dass ich mir selber Gedanken anstelle und mögliche Freiräume dadurch finden will. Das geht ausschließlich nur ohne Algorithmus und ist kreatives abstraktes Denken.

Schlimmer 30.12.2016 | 06:22

Nicht zu vergessen ist der GIGO-Effekt. Garbage In, Garbage out. Bei der deutschen Version von Wikipedia ist dazu lesen, es handele sich um um eine scherzhafte Phrase aus der Informatik. Beim Informatikstudium wurde mir der Begriff jedoch ohne scherzhaften Anklang vorgestellt.

Datenverarbeitung ist ja das Reagieren eines Systems auf Eingabedaten. Man nehme an, man hätte einen absolut richtig arbeitenden Algorithmus. Diesen füttert man mit Daten, die nicht 100% korrekt sind. In der Folge kann daher nicht nur ein etwas inkorrektes Ergebnis erwartet werden. Sondern es ist sogar möglich, kommt eben auf den Algorithmus und die Daten an, dass unglaublich unsinnige Ergebnisse erzielt werden, aufgrund von Eingabedaten, die vielleicht nur etwas ungenau waren. Je komplexer Algorithmus und Datenlage sind, umso größere "Überraschungen" sind möglich. Das ist m.E. auch der Aufhänger für die "42" aus Douglas Adams "Per Anhalter durch die Galaxis".

So, nun kommt aber zusätzlich noch in Betracht, dass Algorithmen selbst fehlerbehaftet sein können. Oder aber die Tatsache, dass der Algorithmus nur einen beschränkten Eingabebereich hat, in dem er korrekt arbeitet. Nehmen wir mal die Gleichung für die Auslenkung einer Stahlfeder (Wendel), wenn sie mit einem Gewicht belastet wird. Diese Gleichung ist nicht universell. bei steigendem Gewicht wird sich die Stahlfeder irgendwann verformen. Wenn das passiert ist, wird eine solche Stahlfeder nie wieder, egal, mit welchem Gewicht sie belastet wird, das ursprüngliche Verhalten aufweisen.

Fazit: Es besteht eine große Gefahr, je mehr sich die Menschheit auf Problemlösungen durch Algorithmen verlässt. Je größer der Nutzen eines Algorithmus ist, etwa durch seine Komplexität, desto größer ist die Wahrscheinlichkeit, dass sich auf dessen Ergebnisse verlassen wird, obwohl sie möglicherweise Unsinn sind. Einfach weil es kaum noch jemand gibt, der in der Lage ist oder sich die Mühe macht, das Ergebnis zu hinterfragen.

Yanestra 01.01.2017 | 16:02

Algorithmen sind unfehlbar? Wohl kaum - wer so etwas schreibt, muss sich fragen lassen, ob er Mathematiker ist oder Priester. Algorithmen sind genauso fehlbar wie derjenige, der sie entwickelt hat. Im übrigen muss immer gefragt werden, ob derjenige denn die richtige Begrifflichkeit genutzt hat, um sich der Lösung seines Problems zu nähern. Der Irrtum über das Ergebnis ist nämlich der häufigste Fehler.

G.A. 01.01.2017 | 18:24

Ich habe nicht verstanden, welche spezielle Gefahr hier heraufbeschworen wird.

Meines Erachtens habe wir es mit den gleichen Gefahren zu tun, mit denen wir bei fast allen Weiterentwicklungen konfrontiert werden, ob Fusionsreaktor, Riesenflugzeuge oder „Verteidigungsschilde“ gegen atomare Bedrohungen.

Die Fehleranfälligkeit von Algorithmen steigt mit ihrer Komplexität. Somit kann man mit an Sicherheit grenzender Wahrscheinlichkeit davon ausgehen, dass hochkomplizierte Analysesysteme Fehler beinhalten. Deshalb testet man ihr Verhalten, kann dies aber nur im begrenzten Umfang tun und somit nur die gröbsten und „augenfälligsten“ Fehler beseitigen.

Ähnliches gilt für die Qualität der Daten.

Letztlich ist es in Verantwortung des Menschen, wie eng er die Symbiose zwischen Mensch und Maschine ausgestaltet und welche Kontrollfunktionen er integriert. Verantwortungslosigkeit führt nur zu immer größeren Schäden – aber das ist auch keine spezielle Eigenschaft der Computerentwicklung.

na64 02.01.2017 | 09:51

Jetzt noch etwas zu eine Fake Welt schön reden:

Habe vor einer Woche auf Soundcloud alles umgestellt und schwupps schon tauchen Leute aus Californien auf und wollen mich gegen bares Geld pushen. Also ich soll Klicks kaufen da man sonst keine Auftritte bekommt. Das selbe Prinzip wie es Labels mit Radiostationen tun damit diese oder jene Songs öfter gespielt werden als andere. Das nennt sich dort Payola. Das ist mir auch einerlei. Das ist schon fast so wie beim Tarot die Karte Der Stern. Ich gebe Euch einen Betrag damit zu mir wieder eine größere Vielzahl an Einahmequellen zu mir zurückfließt. Wenn man dies jetzt nicht mitmacht dann landet man in der Versenkung, im letzten Winckel im Netz, wo du mit deinen Ideen sterben kannst. Das beste ist das die Bezahlung für Manipulationen über Pay Pal läuft und meine Bank unterstützt diese zukunftsorientierte Geldpraxis nicht. Was ist dann hier auf einmal los!?. Hat man hier kein Vertrauen in Algorithmen, aber bei der Börse schon!?. Welche Bedürfnisse hat Pay Pal und welche meine Hausbank!?. Pay Pal will das neue Geld sein. Da gab es auch schon Werbung dafür und das macht dann meine Hausbank überflüssig. Also auf elektronischen Wege laufen hier dann Ausgrenzungen die einem Chancen und Möglichkeiten untersagen und eine Teilhabe an neuen Einahmequellen nicht gestatten.

Sie als Autor arbeiten auch in Silicon Vally und dieser Name SV erinnert mich immer an Frauen die sich Ihre Möpse aufblasen lassen. Mit Siliconimplantaten eine manipulation der Wirklichkeit gestalten. Das gleiche wie bei Soundcloud.

Sind Sie als Autor der ja zeitweise in den USA lebt auch bei dieser Festverantaltung Burning Man mit dabei!?. Für mich ist diese verbrennen der Strohpuppe ein symbolischer Akt, wie es der Ku Klux Klan vollzieht und verkörpert das ausleben von Rassismus. Also Silicon Vally hat in Ihrem Nerdverhalten verteckt Rassismus implantiert. Das ist das was ich in Ihrem Artikel herauslese und was mir nicht gefällt.

tilofiX 02.01.2017 | 21:17

Dieser Artikel stellt die Bedeutung der Daten gegenüber dem Algorithmus für das Ergebnis einer statistische Analyse heraus, das käme mir in der Tat nicht gleich in den Sinn. Gut daran von Zeit zu Zeit erinnert zu werden. Das gewählte Beispiel passt gut und wird im Verlauf des Textes gut erklärt.

Mein Lesefluss stockte nur einmal wegen eines unnötigen Fremdwortes "arbiträr". Aus dem Text: "Für Menschen sieht die Regel [wie bitte] aus." ... willkürlich oder beliebig oder ???

Freue mich auf den nächsten der Kolumne.

Lethe 10.01.2017 | 12:10

Algorithmen sind unfehlbar.

Algorithmen sind rechnerisch unfehlbar, solange die Registerschiebereien der Prozessoren korrekt sind. Dafür, dass die Entwickler eines Algorithmus in jedem Falle zu 100% durchschaut haben, was ihr Algorithmus genau macht, möchte sich eigentlich niemand verbürgen, der keine Folgen-Versicherung hinter sich weiß.

dos 28.02.2017 | 04:34

Ja, in Algos dieser Entwicklungsklasse "skalieren" wir Subjektivität, - allerdings auch dann, wenn wir bestimmte, normativ sensible Kriterien eigens mit als solche einspeisen und im Ergebnis besonders im Auge haben, wie der Autor vorschlägt:
Denn die "Subjektivität", - die hier als Hort der Willkür bzw. der politisch-normativen Inkorrektheit verstanden wird -, liegt weder in den Daten der Zielgruppe, noch in den Algos sondern in der Leitfunktion des status-quo, den Datensätzen der "Kontrollgruppe" von bereits Mathe-Studierenden:
Der Anteil derer, die künftig ein M.St. aufnehmen, wird sich mit diesen Mitteln nicht sehr erhöhen lassen etc. und ein Output, der z. B. 80% Mädchen weißer HF enthält, mag normative Schlagseite von Daten und/oder Algo verdeutlichen, hilft dann aber auch nicht weiter.

Was ist mit den Algos, die ihre Daten und Kriterien zuvor selbst finden/bilden, was ist mit den Korrelaten 3., 4. und höherer Ordung, z. B. der Tatsache, daß 5-mal soviele Mathe-Studentinnen eine FSME-Impfung in ihrer Kindheit u. Jugend bekamen, wie in der Gesamtheit aller studierenden Mädchen?
Der Grund: sie kommen aus Stadtrandgebieten, die an Wald grenzen, eine Lage, die z. B. oft von Ingenieuren bevorzugt wird, die in Frei- u. Familienzeit gern ihre Ruhe haben und im Holzfällerhemd dann gern mal was mit den Händen machen, Naturnähe geniessen usw., während z. B. Kulturleute Wert auf Erreichbarkeit, Repräsentation, Kulturnähe usw. mithin auf Stadtnähe/-anbindung legen, wo die Zecken-Überträger faktisch keine Rolle spielen und man eher auch damit kokettiert, keine Mathe-Kenntnisse zu haben usw., während dergleichen in Ingenieursfamilien wohl eher weniger Anklang findet.

tbc

dos 28.02.2017 | 08:32

Zur Einstellbarkeit versch.ner NORMATIVITÄTEN je Kulturkreis, (Alters-) Gruppe(n) und Individuum hatte ich ja geschrieben, i. A. an NZZ/Nida-Rümelin u. a. hinsichtlich selbstfahrender Autos.

"Kreatives" bzw. Neufindungen, die aus dem einfachen status quo nicht ableitbar sind, bedürfen der automatischen Erweiterung (z.B. räumlich), Extremsuche (wo sind und von wo stammen die meisten Mathe-Mädchen? Wo die wenigsten?) Was unterscheidet deren Durchschnittsprofil vom Durchschnittsprofil der anderen Studierenden, was die Profile der jeweiligen Unis und anderer Studienumstände? =
Ersatz eines beschränkten status quo als Quelle durch einen erweiterten, der präskriptiv ("schreib diese an!") gegenüber dem beschränkten Ausgangs- u. Zielfeld NEU ist.

Für Fälle, wo die Erw.-Möglichkeiten schon ausgeschöpft sind, müssen Zufallssuchen und Experimente (real o. virtuell/simulativ) machbar sein, um NEUES, bisher Unerkanntes automatisiert "an den Tag" zu bringen, d. h. inkl. des Erschaffens von Neuem.