Kuriose Korrelationen bei der Datenanalyse
Eine der großen Stärken von Big-Data-Analysen sind überraschende Einsichten, die nicht auf der Hand liegen. Diese Erkenntnisse ergeben sich aus Mustern, Auffälligkeiten und Rhythmen, die bei der Analyse in den Datensätzen zu finden sind.
Solche Datensätze sind beispielsweise Kassenzettel. Zu einiger Berühmtheit gelangte der Fall einer amerikanischen Supermarktkette, die anhand der Einkaufgewohnheiten einer Kundin herausfand, dass diese schwanger sein musste. Deswegen erhielt diese Kundin entsprechende Werbung für bestimmte Produkte. Durch die Analyse des Verhaltensmuster wusste der Supermarkt allerdings früher von der Schwangerschaft als der Vater der noch minderjährigen Kundin. Wegen der scheinbar unangebrachten Werbung ging der aufgebrachte Vater deswegen gegen die Praktiken der Einkaufskette vor. Bis er erfuhr, dass die aus den Korrelationen der Einkäufen abgeleitete Annahmen der Wahrheit entsprach.
Wenn aus Korrelationen Wahrheiten werden
Intelligente Algorithmen können Dinge in großen Maßstab miteinander vergleichen, deren Zusammenhang zunächst nicht evident ist. Je mehr Daten zum Vergleich zur Verfügung stehen, umso überraschender können die Bezüge zwischen Ereignissen sein. Damit werden Korrelationen zum erkenntnisbringenden Prinzip erhoben. Eine Korrelation bedeuten jedoch noch lange nicht, dass es zwingend einen kausalen Zusammenhänge gibt. Auch wenn Datenauswertungen darauf hinweisen, dass eine Verbindung zwischen zwei Ereignissen überaus wahrscheinlich ist, können die Parallelen zufällig sein.
Der Zufall ist der größte Feind der Wahrscheinlichkeit
Der für die U.S. Militäraufklärung tätige Tyler Vigen sammelte die letzten Jahre seltsame Korrelationen von Datenanalysen. Neben einer umfassenden Buch-Publikation stellt er auch auf seiner Homepage eine Auswahl kurioser Zusammenhänge vor. So zeigt der folgende Chart etwa “eindeutig” den Zusammenhang zwischen den Gewinnen, die in Spielkasinos erzielt wurden, und der Anzahl der Doktortitel im Bereich Informatik:
Korrelationen müssen keinen kausalen Grund haben
Auch wenn viele dieser Korrelationen offensichtlich keinen tieferen Zusammenhang haben, machen sie doch etwas deutlich. Eine Korrelation, und sei sie auch noch so eindeutig, beruht nicht zwangsläufig auf einem wahren, begründeten Ursprung. Besonders dann, wenn diese Daten Grundlage für neue Berechnungen werden, um zukünftige Ereignisse zu prognostizieren, würden die Modelle sehr wahrscheinlich bald versagen.
Kuriose #Daten: Je öfter #NicolasCage in Filmen auftaucht, desto öfter fallen Menschen in einen Pool.
Die Beispiele, die Tyler Vigen findet, sind sicher extrem. Allerdings könnte der Versuch, einen wirklichen Bezug zwischen den Messgrößen herzustellen, ein abendfüllendes Comedy-Programm ergeben.
Unser passender Lesetipp: Big Data Analytics – Datenanalysen mit Geschichten
Autor
Ibrahim Evsan
Ibrahim Evsan ist Gründer, Author und Blogger in Berlin. Er ist auch der Herausgeber dieses Blogs.
Verschiede Artikel
Rückblick auf das HPE Event „Reimagine 2016“ in Stuttgart.
Am 29.09. fand das HPE Event „Reimagine 2016“ statt und die Veranstaltung war ein großer Erfolg. Ich habe viele neue Eindrücke über den aktuellen Stand der Diskussion zum Thema „Digitale Zukunft in Deutschland“ gewinnen und interessante Gespräche dazu führen...
Was steckt hinter Big Data?
Big Data, "große Daten", ist ein seltsamer Begriff – irgendwie unernst, albern, gar nicht technisch und erst recht nicht "erhaben". Dabei fasst Big Data eine ganze Reihe von Entwicklungen zusammen, die in ihrer Bedeutung für fast jeden Bereich unseres Lebens gar...