Warum Big Data Vergleiche schief gehen

Wie soll man sich eine Vorstellung von etwas machen, das in seiner Art neu ist und das alle Maßstäbe des bisher Dagewesenen übersteigt? Ein Vergleich kann da nur hinken.

Um ein neues, nie dagewesenes Phänomen zu verstehen, bauen wir uns Brücken zu der Welt und den Dingen, die wir kennen. Das funktioniert über Bilder, Metaphern und Vergleiche. Im Fall von Big Data war das nicht anders. Vor wenigen Jahren tauchte das Phänomen plötzlich auf und war, noch ohne richtig begriffen worden zu sein, in aller Munde. Ein viel bemühter und vielfach kopierter Vergleich, um Big Data verständlich zu machen, lautete in etwa folgendermaßen:

Die gleiche Menge an Daten, die die Menschheit bis zum Jahr 2000 erzeugte, wurde kaum 10 Jahre später in 10 Minuten erzeugt.

So oder so ähnlich lautete der Vergleich, der den Maßstab und das Potential von Big Data verständlich machen sollte. Doch dieser Vergleich hinkt so gewaltig und ist richtig wie falsch zugleich.

Daten, Informationen und Wissen

Bei dem Vergleich werden in einem Atemzug aus Daten Informationen und aus Informationen Wissen. Dabei unterscheidet sich die Art von Informationen und Wissen, die Big Data beinhaltet wesentlich von dem Wissen, das die Menschheit in den vergangenen Jahrtausenden erzeugt, gesammelt, archiviert und der nächsten Generation weitervererbt hat.

Eine Flugzeugturbine erzeugt bei einem Flug über den Atlantik – datenoptimiert betrachtet – ein Vielfaches an Daten im Vergleich zur Allgemeinen Relativitätstheorie von Albert Einstein oder zum gesamten Werk von Honoré de Balzac. Allein die Datenmenge sagt noch nichts über den Gehalt oder die Qualität der Informationen aus, geschweige denn handelt es sich schon um Wissen.

Masse und Macht der Daten

Bei den großen Mengen erzeugter Daten ist nicht die Einzelinformation an sich interessant. Nicht einmal alle Informationen zusammengenommen ergeben oft ein verwertbares Wissen. Das wertvolle Wissen der Daten liegt oft in ihrer Struktur, ihrer Anordnung und in ihnen enthaltenen Mustern. Oft stecken Erkenntnisse erst in den Metadaten, den Daten über die Daten.

Das Wissen, das aus der Analyse von Daten gewonnen wird, ist zudem ein Wissen, das auf Korrelationen beruht. Es unterscheidet sich wesentlich von dem Wissen, das auf Kausalitäten basiert. Ein Beispiel: Isaac Newton genügte ein Apfel, der ihm der Legende nach auf den Kopf fiel, um die Gesetze der Anziehungskraft der Erde zu erkennen. Würde man die Gesetze der Gravitation mit Big-Data-Methoden untersuchen, würde man alle potentiell fallendenden Äpfel mit Sensoren ausstatten. Am Ende eines festgelegten Untersuchungszeitraumes untersucht man, welche Muster sich abzeichnen. Siehe da: alle Äpfel weisen mehrheitlich dasselbe Verhalten auf und fallen nach unten. Das Gesetz der Gravitation ist beschrieben.

Das Datenwissen unterscheidet sich weiter auch wesentlich von dem Wissen, das in Literatur oder Musik zu finden ist. Rein mengenmäßig wird also tatsächlich – inzwischen innerhalb von wenigen Minuten – ein Vielfaches dessen produziert, was die Menschheit insgesamt hervorgebracht hat, wenn es in Daten übersetzt wird. Im Detail wiegt die isolierte Einzelinformation jedoch sehr wenig im Vergleich zu dem, was eine einzelne Information der Menschheitsgeschichte auszusagen vermag.

Zur Verstehbarkeit von Daten und Algorithmen

Die Unterschiede zwischen Datenanalysen bzw. Datenwissen und anderen Wissensformen sind aber noch weit gravierender. Die Fortschritte auf dem Feld der Künstlichen Intelligenz, Mashine Learning und Deep Structured Learning führen dazu, dass von außen nicht mehr verstanden werden kann, wie ein bestimmtes Ergebnis einer Datenanalyse zustande kam. Wir werden in Zukunft also mit einem Wissen konfrontiert sein, das nicht mehr überprüfbar ist.

[selectivetweet]#BigData: Wir werden mit einem Wissen konfrontiert sein, das nicht mehr überprüfbar ist.[/selectivetweet]

Je nach Anwendungsfall kann dies ärgerliche Konsequenzen haben. Algorithmen können künftig die Kreditwürdigkeit überprüfen und dabei Dinge miteinander in Beziehung setzen, deren Zusammenhänge sehr komplex sind. Weder Kunde noch Bankberater noch Programmierer könnten am Ende das Urteil über die Kreditvergabe verstehen oder begründen. In diesem Video erklärt der Gründer von des Hamburger Start-ups Kreditech Sebastian Diemer, dass inzwischen nur noch der selbstlernende Algorithmus “weiß”, warum Kredite gegeben werden und warum nicht.

Dabei sind Big-Data-Analysen nicht unfehlbar. Der Fall des Vorzeigeprojekts „Google Flu“ führt vor Augen, wie falsch Wissen sein kann, das nur auf Korrelation beruht. Google Flu wertete Suchanfragen aus, die auf Grippe-Epidemien hinwiesen und prognostizierte mit diesem Wissen reale Bedrohungen. Und scheiterte. Im besten Fall hätte dieser Algorithmus viele Menschenleben retten können und so ist sein Scheitern sehr bedauerlich. Doch was ist, wenn ein Algorithmus beim “Predictive-Policing” irrt und ein Verbrechen falsch vorhersagt?

[selectivetweet]#BigData: In 10 Minuten werden mehr Datenmengen erzeugt wie in den 40.000 Jahren davor.[/selectivetweet]

Damit Big Data zu einem sinnvollen Instrument wird, das den Menschen nutzt, ist es also notwendig, das Phänomen selbst und all seine Aspekte zunächst richtig zu verstehen. Dazu gehört es auch, die richtigen Begriffe und richtigen Vergleiche zu finden.

Warum Vergleiche mit Big Data schief gehen

Daten, Informationen und Wissen

Masse und Macht der Daten

Zur Verstehbarkeit von Daten und Algorithmen