Was sich esoterisch anhört, ist eine Grundaussage der Systemtheorie Niklas Luhmanns. Ob Zellaufbau, Gesellschaften oder Psychologie – der Sozialtheoretiker hat in den 1980er Jahren viele Umwältzungen vorgedacht, die uns heute sprachlos machen: Big Data ist eine davon.
Durch die Digitalisierung entstehen Massen an Daten
Daten sind Kleinstinformationen, die einst nur als Bild im Kopf, später in Sprache, Schrift, Büchern und als Datei auf Tablets oder Rechnern existieren. Man ahnt es schon: Der technische Fortschritt hat stets dafür gesorgt, dass weniger Wissen verloren geht. Die Digitalisierung ermöglicht es jetzt, gar nichts mehr vergessen zu müssen. Je mehr Kommunikation digital erfolgt, umso mehr Daten entstehen, werden transferiert und gespeichert. Zumindest übergangsweise.
Das System, die Kommunikation selbst, archiviert sich und sorgt für den eigenen Fortbestand. Ganz nach Luhmanns Diktum stehen die Kommunikationsmetadaten, also die Daten über Kommunikation – was, wer, wann, wo und wie – den Inhalten der Kommunikation in ihrer Aussagekraft nicht nach. Ob digitale Kommunikations- oder Sensor- und Prozessdaten, in der richtigen Lesart sind sie alle von Interesse. 300 Milliarden Twitter-Nachrichten sind bis heute versendet worden. Jede Sekunde kommen 5000 hinzu.
Mit Big Data gewinnt man Erkenntnisse aus den Datenmassen
Der Datenberg wird immer größer, ganz automatisch. Auf der Suche nach Nutzen und Vorteil wird so viel gespeichert wie nur möglich. Datenkraken nennt man die Unternehmen, die dabei die Interessen der Menschen nicht berücksichtigen. Erfinder nennt man die, die die Daten nutzen, um die Welt besser zu machen. Effizienter, ressourcenschonender oder schneller.
Je größer der Berg, desto schwieriger wird es, Zusammenhänge, Muster und Aussagen daraus abzuleiten. Dabei ist klar: Je größer der Berg, je reichhaltiger die Daten, umso größer der Nutzen, den man abschürfen kann. Big Data macht Datenberge in Übergröße nutzbar zu machen.
Egal, ob die Daten nur lose zusammenhängen, sich schnell verändern, weiter wachsen oder lückenhaft sind – Big Data ist die digitale Lösung für das digitale Problem, aus der digitalen Datensammlung Erkenntnisse zu gewinnen.
Intelligente Systeme aufgebaut auf Cloud-Rechnern ermöglichen es, in dem Datenstrom ein Bekenntnis abzutrotzen und Aussagen abzuleiten. Das weltweite Datenvolumen verdoppelt sich alle zwei Jahre (Klaus Manhart: IDC-Studie zum Datenwachstum – Doppeltes Datenvolumen alle zwei Jahre. In: CIO 2011). Die Datenmenge auf den Rechnern der Welt ist so groß, dass bald ein neues Wort erfunden werden muss: das Yottabyte, eine Eins mit 24 Nullen.
Daten werden aus unzähligen Quellen gewonnen, doch vor allem aus Wissenschaft, Internet und Kommunikation
Als Datenquelle ist jegliche Bewegung zu begreifen: Ob Funkwellen, elektrische Impulse oder Licht. Die Sensoren und Tastaturen der Welt digitalisieren Inhaltsdaten, Metadaten, Transaktionsdaten aus Bank- und Geschäftsverkehr, Verhaltensaufzeichnungen von geographischen und Surfbewegungen, Gesundheitsakten, Finanzdaten, Messergebnisse aus der Wissenschaft, dem Internet of Things und privaten Überwachungssystemen.
Die massenhafte Datenschöpfung ist deswegen nicht aufzufangen. Besonders in den Bereichen Wissenschaft, Internet und Kommunikation übersteigt die generierte Datenmasse jede Speichermöglichkeit. 99 Prozent aller im LHC-Teilchenbeschleuniger generierten Messungen müssen verworfen werden. Die Frage nach der Auswahl und ad-hoc-Auswertung drängt sich auf.
Die Suche nach brauchbaren Erkentnissen: Data-Mining
Wer Daten nutzen will, kauft sie von Anbietern wie Marktforschungsunternehmen oder nutzt die bereits vorliegenden öffentlichen oder privaten historischen und laufenden Quellen: Statistische Datenbanken, Websites, Onlinestores, Adresslisten, Produktionsdaten etc. Daten liegen überall in großen Mengen vor. Aber selbst wenn eine adäquate Lösung für die Speicherproblematik gefunden wurde – als Gewinn kann man die Daten noch nicht bezeichnen.
Data-Mining nennt man das Suchen von Erkenntnissen in dem Datenberg. Die Essenz der Datenfrüchte sind Muster, Modelle, Aussage, Hypothesenüberprüfungen. Schlaue Techniker, Programmierer, Statistiker und Menschen, die nach belastbaren Aussagen suchen und die Ergebnisse deuten können, benötigen eine gute technische Infrastruktur, um brauchbare Erkenntnisse aus dem Informationswust zu extrahieren.
Drei interessante Beiträge zu Big Data-Analyse
Die Ernte und Vorverarbeitung ist auch bei Wein und Kaffee entscheidend. Die suche der Analysten nach der Essenz ihrer Früchte ist ungleich weniger schön anzusehen. Die abstrakten und technischen Probleme zu lösen, sind harte kreative Aufgaben.
Die Wissensentdeckung in Datenbanken mit statistischer Signifikanz
Knowledge Discovery in Databases (“KKID”) beschreibt diesen Teil der Big Data-Welt also besser: Nicht Daten, sondern Wissen wird beim Data-Mining gewonnen. Und neues Wissen ist dann gut, wenn es statistisch signifikant, neu und nützlich ist. Sonst war viel Arbeit umsonst. Aber was ist statistische Signifikanz?
Nicht jeder muss Analyst werden, also gilt hier kurz gefasst: Zusammenhänge zwischen A und B dürfen nach statistischen Kriterien nicht zufällig sein, sondern müssen – soweit man das sagen kann – systematischen Ursprung haben.
Dieses enorm komplexe Problem der Statistik kann man allerdings in der Geschäftspraxis bisweilen vermeiden. Wenn man die Analyseergebnisse experimentell überprüfen kann, kann man sich viel Zeit und wissenschaftlichen Aufwand sparen.
Big Data ist in der Wirtschaft angekommen, z.B. in der Werbung und Landwirtschaft
Seiner Zeit voraus sein. Oder wenigstens besser als der Konkurrent. Für kleine Vorteile geht der Mensch weit. Entsprechend überrascht es nicht, dass Big Data langsam aus dem Forschungskontext in die Welt der Industrie und mittelständischen Unternehmen rückt.
Ein Beispiel dafür ist die optimierte Feldernutzung in der Landwirtschaft abhängig von Klima, Boden, Saattechnik und Bedarf. Die Grenzen und Knappheiten der Realität werden enorm verschoben.
Big Data verändert unsere Welt: Von Manipulationen bis hin zu neuen Geschäftsfeldern
Ebenso wichtig sind Stimmungsanalysen, die Produktattraktivität in Echtzeit abbilden können. Oder Medien, die – wie Facebook in einer Studie zeigte – systematisch das Befinden der Nutzer zu manipulieren im Stande sind. Adam Kramer von Facebook erstellt auf der Basis der Unternehmensdaten einen Nationalen Index für Bruttosozialglück. Der Mitarbeiter der Innovationsabteilung sucht gezielt nach Potentialen digitalisierter Kommunikation.
Experimente mit Millionen von Nutzern sind technisch möglich – und werden in Angriff genommen. Denn Durchführung und Auswertung sind dank der Big Data-Infrastruktur des Netzwerks kein Problem.
Neue Technik führt zu neuen Geschäftsfeldern. Neue Lösungen für alte Probleme werden denkbar:
- Sharing Economy auf der Basis von Sensorüberwachung
- Cloudservices für allgemeinverfügbare Informationen
- Werbewirkungsanalysen
- Marktforschung
- Betrugsverhinderung
- Diagnostik in der Medizin
- automatische und exakte Rechnungslegung im Energie und Kommunikationsbereich
Die Welt wird verändert, überall.
Big Data und seine politische Bedeutung: Von Volkszählungen bis zur Wahlkampfplanung
Russland verpflichtete russische Firmen jüngst zur Datensammlung. In Deutschland verfolgt der Innenminister mit der Vorratsdatenspreicherung das Ziel nationaler Sicherheit in den USA haben die US-Geheimdienste aktiv an der Entstehung und Konzeption der Datenkraken Google, Facebook und Co. mitgewirkt.
Informationen und Einfluss, die aus dem Datenmeer erwachsen, scheinen für Nationen existentielle Werte zu sein. Strategisch wichtige Entscheidungshilfen sind schon immer genutzt worden – mit den Studien der Wirtschaftswissenschaftler und Volkszählungen bisweilen sogar echte Vorläufer von Big Data. Ob Rechnungsprüfung, Wirtschafts- und Sozialpolitik, Steuern und Netzwerkanalysen: Bis hin zur Wahlkampfplanung birgt Big Data entscheidendes Potential.
Big Data wird zur demokratischen Kontrollinstanz
In Wirtschaft wie in Politik wird nun erkennbar, wie schmerzhaft-notwendig es ist, nicht einfach den Mächtigen die Daten- und Analysehoheit zu überlassen. Der Schutz von Daten, Privatsphäre und Urheberrechten bekommt eine ganz neue rechtsstaatliche Brisanz.
Open Data, das Freistellen von Daten insbesondere aus Steuermitteln finanzierter Datenbanken, ist eine weltweite Bewegung geworden. Eine ganz Reihe von Tüftlern hebt nun die Schätze dieser Daten und stellt die Funde der Gemeinschaft wieder zur Verfügung.
Die Datenanalyse erfolgt durch die Verknüpfung von Eigenschaften
Nachdem diesem groben Überblick über Big Data wenden wir uns jetzt noch einmal der konkreten Analyse zu. Die Organisation von Daten ist dafür eine der wichtigsten Grundlagen. Datenbanken sind eine Ansammlung so genannter Merkmalsausprägungen.
Ein Beispiel: Geschlecht ist ein Merkmal, die Ausprägung dann also “weiblich”. Auf diese Weise werden in Datenbanken, ähnlich wie in Tabellen, Aussagen über Eigenschaften vieler Beobachtungen miteinander verknüpft. Wie im Telefonbuch, das Name mit Adresse und Nummer in einer bestimmten Systematik verbindet. Natürlich geht das noch mit sehr viel mehr Merkmalen gleichzeitig: Das ist der Anfang der multivariaten Datenbanken und Statistik.
Google als allgemeinverfügbare Big Data-Anwendung mit riesigen Rechenleistungen
Bei Big Data werden diese Datenbanken nun riesig: Viele Merkmale, Ausprägungen, in Reihen, Spalten, Zeitreihen, und mehrdimensionalen “Tabellen” sind möglich. Die Untersuchung solcher Datenlandschaften erfordert enorme Rechenkapazitäten.
Wenn aber auch noch Echtzeituntersuchungen, Import von neuen Daten, schnelle und gleichzeitige Datenabfragen, Überschreibungen oder verschiedene Informationstypen wie Zahlen, Sprache, Texte oder Bilder hinzukommen, wird erkennbar, welche Leistung beispielsweise die Mutter allgemeinverfügbarer Big Data-Anwendungen – Google – vollbracht hat. Es ist enorm.
Lässt Big Data in die Zukunft schauen? Ja, durch die Verknüpfung von Datenquellen und Inhalten
Die Verschränkung von Datenquellen und Inhalten ermöglicht es, überraschende Einblicke zu sammeln. Tweets zu bestimmten Restaurants oder Check-Ins bei Bars, wie sie bei Facebook oder FourSquare möglich sind, können mit Metadaten verbunden Hinweise darüber geben, wo schlechtes oder verdorbenes Essen angeboten wird.
Zielsicher konnten in einer Studie Restaurants mit schlechter Hygiene ausfindig gemacht werden. Auch bei Katastrophen können aus der Twitterwolke Informationen zu Ausmaß und bester Hilfsstrategie gewonnen werden. Wo brennt es am meisten? Wer ist am schlimmsten betroffen? Wie wohin mit der Hilfe?
Ähnlich wie Facebook aus dem Nutzerverhalten Rückschlüsse auf die wirtschaftliche und emotionale Situation der Nutzer ziehen kann – bis hin zur zuverlässigen Prognose eines baldigen Beziehungsendes – kann man anhand korrelierter Vorverhaltensweisen künftige Krisenherde, Epidemien und sogar Verbrechen vorhersagen. Jedenfalls versucht eine ganze Industrie gerade, die entsprechenden Techniken zu verbessern.
Drei spannende Beiträge über die Möglichkeiten des Vorhersehens mit Big Data
Dabei setzt man nicht nur auf die Erkennung bekannter Muster, also Data-Mining. Auch automatisiertes Data-Mining, maschinelles Lernen genannt, soll diesen Prozess in Zukunft verbessern. Die Weiterentwicklung von Datenbanksystemen und Indexstrukturen sind wichtige Grundlage jeder Analyse.
Gleiches gilt für die genannten semantischen Suchmöglichkeiten: Plagiatskontrolle über Textvergleiche und grammatische Überprüfung von Text und Sprache. Bis hin zur Kontrolle von Datenbanken auf systemische Fehler und Softwarecodes auf Hackereingriffe kann Big Data Unregelmäßigkeiten und Eigentümlichkeiten abrufbar und nutzbar machen.
Big Data soll helfen, kritische Informationen glaubhaft verifizieren zu können
Es ist der Traum von Big Data-Experten, nicht nur neue Märkte und geringere Kosten zu ermöglichen, sondern die Gunst der Stunde zu erkennen. Welcher Moment ist entscheidend? Auf der Basis von Datenmustern der Geschichte und Anzeichen für Veränderungen lassen sich Hypothesen treffen.
Twitter konnte zwei Minuten vor der Börse den großen Absturz der BlackBerry-Aktien vorhersagen. Osama Bin Ladens Tod war 20 Minuten vor den ersten Zeitungen sichtbar – und aufgrund von Netzwerkanalysen und Schwarmintelligenztheorien glaubhaft.
Kritische Informationen glaubhaft verifizieren zu können, ist die Hoffnung, die in Big Data gesetzt wird. Die Big Data-Experten trainieren ihre Tools also auf größere Aussagekraft.
Auch Big Data birgt Gefahren: Absichtliches manipulatives Verhalten und die fehlende Seriosität bei der Auswertung
Die Gegenspieler bei diesem Training sind – neben unvollständigen und ungeordneten Datenbanken – manipulierte Datenbanken. Fehlende Teile, veränderte Datenstrecken, hinzugefügte extreme Werte, die das Bild verzerren. Twitterbomben können punktuell politische Rennen verändern. Googlebomben prägen das Bild, das wir von Menschen haben.
Die Bombe auf Twitter, in Blogs und Google hinterließ tiefe Spuren. Es ist eine kontroverse Frage, ob eine aktuelle Diskussion und engagierte politische Gruppen die Online-Reputation von Personen (oder Unternehmen, wie im Fall von BP oder Shitstorms) dermaßen dominieren dürfen. Und ob der vorgeblich unparteiische Analyse-Algorithmus von Google dieses Bild ohne redaktionelle Prüfung weitergeben können soll.
Es gibt hier aber ebenso Hoffnung – denn technisch ist es leicht möglich, solche prägenden Trends zu identifizieren. Einige Manipulationsarten werden so leicht erkennbar.
Ein anderes Problem ist fehlende Seriosität bei der Auswertung von Daten: Wenn statistische Arbeitsregeln nicht ausreichend beachtet werden, im Vorfeld keine klaren Hypothesen aufgestellt werden, sind viele Analyseergebnisse denkbar. Die Zuverlässigkeit und Überprüfbarkeit leidet.
Big Data bringt eine grosse gesellschaftliche Verantwortung mit sich
Datenschutz, Korrelation, Repräsentativität, Qualität und Aussagekraft: Der Technik ist es egal, wie sie genutzt oder verhunzt wird. Das Thema Big Data ist jedoch so wichtig, ein sogenannter “Megatrend”, dass Eingeweihte Milliarden in das Feld investieren und sich auf ein Abenteuer begeben.
Viele Erfahrungen werden auf dem Weg eingesammelt und beim Probieren Fehler und Fortschritte gemacht. Der einfachste Weg ist ein Anfang, der erfolgreichste unbekannt. Deswegen kann man keine fertigen Lösungen verlangen, sondern muss die ganze Gesellschaft mitnehmen und an den Vorteilen und Risiken der Technik teilhaben lassen. Die gesellschaftliche Diskussion wird zu einem Konsens führen, welche Rolle Moral, Psyche und Recht bei dieser Innovation spielen sollen.
Die Probleme durch Big Data scheinen vorprogrammiert zu sein
Menschliche Entscheidungen werden im digitalen Raum ständig überprüfbar sein. Individuelle Fehler werden für andere und einen selbst potentiell sichtbar. Ein Vorgeschmack? Schauen Sie doch mal, in welche Cluster Google Sie eingeteilt hat.
Ein Konsens über Big Data ist unerlässlich! Der Big Data-Blog diskutiert darüber!
Big Data verspricht nicht nur neues Wissen, sondern auch neues Denken. Die Systeme der Wissensgewinnung und unser Verständnis von Wissen als Herrschaftsgrundlage wandeln sich in diesem Moment extrem. Die Weltformel rückt scheinbar wieder in greifbare Nähe angesichts globaler Kommunikationsnetzwerke und Experimenten, die ganze Regionen über eine Manipulation der Facebook Timeline in gesteuerte Stimmungen stürzen.
Der Sozialwissenschaftler und Systemtheoretiker Niklas Luhmann hat seine Bücher mithilfe einer Zetteldatenbank geschrieben. Ein Kasten voller Karteikarten mit Sätzen und verbunden mit Verweisen. Die Zettel selbst waren nur in chronologischer Ordnung. Die Verweise waren das Muster, das es Luhmann ermöglichte, seine Thesen argumentativ zusammenzusetzen. Die sind heute zum Verständnis komplexer Systeme – ob sozial, technisch oder biologisch, grundlegend.
Über 30 Jahre haben IT-Entwickler seine Theorien nachvollzogen. Big Data bricht aus diesem Rahmen aus, der Zettelkasten wird digitalisiert und die gesellschaftliche Rolle von Datenanalyse wird neu gefunden. Wem gehören die Daten? Wer darf sie wie untersuchen? Wer bewacht die Einhaltung der Regel?
Das diskutiert der Big Data-Blog!
Diese Seiten sollten Sie ebenfalls besuchen
Medium | Typ | Sprache |
datacenter-insider.de/ | Themenportal | Deutsch |
computerwoche.de/k/big-data,3457 | Ressort | Deutsch |
bigdatanews.com/ | Themenportal | Englisch |
theguardian.com/data/big-data | Ressort | Englisch |
informationweek.com/big-data.asp | Ressort | Englisch |
infoworld.com/t/big-data | Ressort | Englisch |
venturebeat.com/category/big-data/ | Ressort | Englisch |
inside-bigdata.com/ | Themenportal | Englisch |
fiercebigdata.com/ | Themenportal | Englisch |
zdnet.com/topic-big-data/ | Ressort | Englisch |
computerweekly.com/resources/Big-data-analytics | Ressort | Englisch |
analyticsweek.com/ | Themenportal | Englisch |
bigdataweek.com/ | Englisch | Englisch |
Sie interessieren sich auch für Big Data oder haben Fragen?