Big Data: Die Potentiale von Daten verstehen, Projekte daraus verwirklichen und seine Daten entfalten.

Kuriose Korrelationen bei der Datenanalyse

7

Eine der großen Stärken von Big-Data-Analysen sind überraschende Einsichten, die nicht auf der Hand liegen. Diese Erkenntnisse ergeben sich aus Mustern, Auffälligkeiten und Rhythmen, die bei der Analyse in den Datensätzen zu finden sind.

Solche Datensätze sind beispielsweise Kassenzettel. Zu einiger Berühmtheit gelangte der Fall einer amerikanischen Supermarktkette, die anhand der Einkaufgewohnheiten einer Kundin herausfand, dass diese schwanger sein musste. Deswegen erhielt diese Kundin entsprechende Werbung für bestimmte Produkte. Durch die Analyse des Verhaltensmuster wusste der Supermarkt allerdings früher von der Schwangerschaft als der Vater der noch minderjährigen Kundin. Wegen der scheinbar unangebrachten Werbung ging der aufgebrachte Vater deswegen gegen die Praktiken der Einkaufskette vor. Bis er erfuhr, dass die aus den Korrelationen der Einkäufen abgeleitete Annahmen der Wahrheit entsprach.

Wenn aus Korrelationen Wahrheiten werden

Intelligente Algorithmen können Dinge in großen Maßstab miteinander vergleichen, deren Zusammenhang zunächst nicht evident ist. Je mehr Daten zum Vergleich zur Verfügung stehen, umso überraschender können die Bezüge zwischen Ereignissen sein. Damit werden Korrelationen zum erkenntnisbringenden Prinzip erhoben. Eine Korrelation bedeuten jedoch noch lange nicht, dass es zwingend einen kausalen Zusammenhänge gibt. Auch wenn Datenauswertungen darauf hinweisen, dass eine Verbindung zwischen zwei Ereignissen überaus wahrscheinlich ist, können die Parallelen zufällig sein.

Der Zufall ist der größte Feind der Wahrscheinlichkeit

Der für die U.S. Militäraufklärung tätige Tyler Vigen sammelte die letzten Jahre seltsame Korrelationen von Datenanalysen. Neben einer umfassenden Buch-Publikation stellt er auch auf seiner Homepage eine Auswahl kurioser Zusammenhänge vor. So zeigt der folgende Chart etwa “eindeutig” den Zusammenhang zwischen den Gewinnen, die in Spielkasinos erzielt wurden, und der Anzahl der Doktortitel im Bereich Informatik:

 

Kuriose Korrelationen bei Datenanalysen

© tylervigen.com

Ähnlich offensichtlich ist der Zusammenhang zwischen der Anzahl der Filme, in denen Nicolas Cage auftaucht, und Swimming-Pool-Unfällen.

Kuriose Korrelationen bei Datenanalysen

© tylervigen.com

All diese Korrelationen zeigen auf eine nahezu unheimlich exakte Art und Weise wie der Zufall ähnliche Muster hervorbringen kann.

Korrelationen müssen keinen kausalen Grund haben 

Auch wenn viele dieser Korrelationen offensichtlich keinen tieferen Zusammenhang haben, machen sie doch etwas deutlich. Eine Korrelation, und sei sie auch noch so eindeutig, beruht nicht zwangsläufig auf einem wahren, begründeten Ursprung. Besonders dann, wenn diese Daten Grundlage für neue Berechnungen werden, um zukünftige Ereignisse zu prognostizieren, würden die Modelle sehr wahrscheinlich bald versagen.

Kuriose #Daten: Je öfter #NicolasCage in Filmen auftaucht, desto öfter fallen Menschen in einen Pool.

Die Beispiele, die Tyler Vigen findet, sind sicher extrem. Allerdings könnte der Versuch, einen wirklichen Bezug zwischen den Messgrößen herzustellen, ein abendfüllendes Comedy-Programm ergeben.

Unser passender Lesetipp: Big Data Analytics – Datenanalysen mit Geschichten

Autor

Ibrahim Evsan

Ibrahim Evsan ist Gründer, Author und Blogger in Berlin. Er ist auch der Herausgeber dieses Blogs. 

Verschiede Artikel