Kuriose Korrelationen bei der Datenanalyse
Eine der großen Stärken von Big-Data-Analysen sind überraschende Einsichten, die nicht auf der Hand liegen. Diese Erkenntnisse ergeben sich aus Mustern, Auffälligkeiten und Rhythmen, die bei der Analyse in den Datensätzen zu finden sind.
Solche Datensätze sind beispielsweise Kassenzettel. Zu einiger Berühmtheit gelangte der Fall einer amerikanischen Supermarktkette, die anhand der Einkaufgewohnheiten einer Kundin herausfand, dass diese schwanger sein musste. Deswegen erhielt diese Kundin entsprechende Werbung für bestimmte Produkte. Durch die Analyse des Verhaltensmuster wusste der Supermarkt allerdings früher von der Schwangerschaft als der Vater der noch minderjährigen Kundin. Wegen der scheinbar unangebrachten Werbung ging der aufgebrachte Vater deswegen gegen die Praktiken der Einkaufskette vor. Bis er erfuhr, dass die aus den Korrelationen der Einkäufen abgeleitete Annahmen der Wahrheit entsprach.
Wenn aus Korrelationen Wahrheiten werden
Intelligente Algorithmen können Dinge in großen Maßstab miteinander vergleichen, deren Zusammenhang zunächst nicht evident ist. Je mehr Daten zum Vergleich zur Verfügung stehen, umso überraschender können die Bezüge zwischen Ereignissen sein. Damit werden Korrelationen zum erkenntnisbringenden Prinzip erhoben. Eine Korrelation bedeuten jedoch noch lange nicht, dass es zwingend einen kausalen Zusammenhänge gibt. Auch wenn Datenauswertungen darauf hinweisen, dass eine Verbindung zwischen zwei Ereignissen überaus wahrscheinlich ist, können die Parallelen zufällig sein.
Der Zufall ist der größte Feind der Wahrscheinlichkeit
Der für die U.S. Militäraufklärung tätige Tyler Vigen sammelte die letzten Jahre seltsame Korrelationen von Datenanalysen. Neben einer umfassenden Buch-Publikation stellt er auch auf seiner Homepage eine Auswahl kurioser Zusammenhänge vor. So zeigt der folgende Chart etwa “eindeutig” den Zusammenhang zwischen den Gewinnen, die in Spielkasinos erzielt wurden, und der Anzahl der Doktortitel im Bereich Informatik:
Korrelationen müssen keinen kausalen Grund haben
Auch wenn viele dieser Korrelationen offensichtlich keinen tieferen Zusammenhang haben, machen sie doch etwas deutlich. Eine Korrelation, und sei sie auch noch so eindeutig, beruht nicht zwangsläufig auf einem wahren, begründeten Ursprung. Besonders dann, wenn diese Daten Grundlage für neue Berechnungen werden, um zukünftige Ereignisse zu prognostizieren, würden die Modelle sehr wahrscheinlich bald versagen.
Kuriose #Daten: Je öfter #NicolasCage in Filmen auftaucht, desto öfter fallen Menschen in einen Pool.
Die Beispiele, die Tyler Vigen findet, sind sicher extrem. Allerdings könnte der Versuch, einen wirklichen Bezug zwischen den Messgrößen herzustellen, ein abendfüllendes Comedy-Programm ergeben.
Unser passender Lesetipp: Big Data Analytics – Datenanalysen mit Geschichten
Autor
Ibrahim Evsan
Ibrahim Evsan ist Gründer, Author und Blogger in Berlin. Er ist auch der Herausgeber dieses Blogs.
Verschiede Artikel
Google Suggest: Schöner suchen mit Big Data – Teil 4
Indikator für das Nutzerverhalten Immer wieder wird behauptet, die Vorschläge von Google lieferten eine exzellente Möglichkeit, Schlüsse über Einstellungen und Verhalten der Netzgemeinde zu ziehen. Das stimmt aber nur sehr eingeschränkt. Erstens gibt es...
Datenvisualisierung bei Big Data: Wenn Daten Schönheit erlangen
Big Data bleibt manchmal ein abstraktes Thema. Dabei steckt dahinter wertvolles Wissen und wertvolle Informationen. Damit Daten ihr Wissen preisgeben, werden sie von Big-Data-Artists visualisiert. Die weltweit unvorstellbar rasant wachsende Datenmenge stellt...