Kuriose Korrelationen bei der Datenanalyse
Eine der großen Stärken von Big-Data-Analysen sind überraschende Einsichten, die nicht auf der Hand liegen. Diese Erkenntnisse ergeben sich aus Mustern, Auffälligkeiten und Rhythmen, die bei der Analyse in den Datensätzen zu finden sind.
Solche Datensätze sind beispielsweise Kassenzettel. Zu einiger Berühmtheit gelangte der Fall einer amerikanischen Supermarktkette, die anhand der Einkaufgewohnheiten einer Kundin herausfand, dass diese schwanger sein musste. Deswegen erhielt diese Kundin entsprechende Werbung für bestimmte Produkte. Durch die Analyse des Verhaltensmuster wusste der Supermarkt allerdings früher von der Schwangerschaft als der Vater der noch minderjährigen Kundin. Wegen der scheinbar unangebrachten Werbung ging der aufgebrachte Vater deswegen gegen die Praktiken der Einkaufskette vor. Bis er erfuhr, dass die aus den Korrelationen der Einkäufen abgeleitete Annahmen der Wahrheit entsprach.
Wenn aus Korrelationen Wahrheiten werden
Intelligente Algorithmen können Dinge in großen Maßstab miteinander vergleichen, deren Zusammenhang zunächst nicht evident ist. Je mehr Daten zum Vergleich zur Verfügung stehen, umso überraschender können die Bezüge zwischen Ereignissen sein. Damit werden Korrelationen zum erkenntnisbringenden Prinzip erhoben. Eine Korrelation bedeuten jedoch noch lange nicht, dass es zwingend einen kausalen Zusammenhänge gibt. Auch wenn Datenauswertungen darauf hinweisen, dass eine Verbindung zwischen zwei Ereignissen überaus wahrscheinlich ist, können die Parallelen zufällig sein.
Der Zufall ist der größte Feind der Wahrscheinlichkeit
Der für die U.S. Militäraufklärung tätige Tyler Vigen sammelte die letzten Jahre seltsame Korrelationen von Datenanalysen. Neben einer umfassenden Buch-Publikation stellt er auch auf seiner Homepage eine Auswahl kurioser Zusammenhänge vor. So zeigt der folgende Chart etwa “eindeutig” den Zusammenhang zwischen den Gewinnen, die in Spielkasinos erzielt wurden, und der Anzahl der Doktortitel im Bereich Informatik:
Korrelationen müssen keinen kausalen Grund haben
Auch wenn viele dieser Korrelationen offensichtlich keinen tieferen Zusammenhang haben, machen sie doch etwas deutlich. Eine Korrelation, und sei sie auch noch so eindeutig, beruht nicht zwangsläufig auf einem wahren, begründeten Ursprung. Besonders dann, wenn diese Daten Grundlage für neue Berechnungen werden, um zukünftige Ereignisse zu prognostizieren, würden die Modelle sehr wahrscheinlich bald versagen.
Kuriose #Daten: Je öfter #NicolasCage in Filmen auftaucht, desto öfter fallen Menschen in einen Pool.
Die Beispiele, die Tyler Vigen findet, sind sicher extrem. Allerdings könnte der Versuch, einen wirklichen Bezug zwischen den Messgrößen herzustellen, ein abendfüllendes Comedy-Programm ergeben.
Unser passender Lesetipp: Big Data Analytics – Datenanalysen mit Geschichten
Autor
Ibrahim Evsan
Ibrahim Evsan ist Gründer, Author und Blogger in Berlin. Er ist auch der Herausgeber dieses Blogs.
Verschiede Artikel
CNN und Dataminr: Echtzeit-News via Tweets
Der Nachrichten Sender CNN gibt dem Internet als Nachrichtenquelle eine neue Chance. Gemeinsam mit dem Startup Dataminr sollen Tweets weltweit in Echtzeit analysiert werden, um relevante Nachrichten herauszufiltern. CNN folgt mit dem gemeinsamen Projekt Dataminr...
Business Intelligence-Tools für die Wohlfühlzone Excel
Ständig wachsende und heterogene Datenmengen machen die manuelle Datenverarbeitung mit Excel zusehends beschwerlich und fehleranfällig. Jedox vereinfacht die Berichterstattung durch ein Reporting-Werkzeug mit webbasierter Excel-Oberfläche.