Was ist Big Data?

New Work Bildidee und Text von Ibrahim Evsan

Durch die Digitalisierung entstehen Massen an Daten

Daten sind Kleinstinformationen, die einst nur als Bild im Kopf, später in Sprache, Schrift, Büchern und als Datei auf Tablets, iPhones oder Rechnern existieren. Man ahnt es schon: Der technische Fortschritt hat stets dafür gesorgt, dass Wissen nicht mehr verloren geht. Die Digitalisierung ermöglicht es jetzt, gar nichts mehr vergessen zu müssen. Je mehr Kommunikation (inkl. Machine-to-Machine (M2M) Communication) digital erfolgt, umso mehr Daten entstehen, werden transferiert und gespeichert. Dafür braucht man immer mehr technologisch anspruchsvollere Tools und Programme die diese Datenflut analysieren, kategorisieren und am Ende für den Menschen nutzvoll zu machen.

Das System archiviert sich und sorgt für den eigenen Fortbestand. Ob digitale Kommunikations- oder Sensor- und Prozessdaten, in der richtigen Lesart sind sie alle von Interesse.

Mit Big Data gewinnt man Erkenntnisse aus den Datenmassen

Der Datenberg wird immer größer, ganz automatisch. Auf der Suche nach Nutzen und Vorteil wird so viel gespeichert wie nur möglich. Je größer der Berg, desto schwieriger wird es, Zusammenhänge, Muster und Aussagen daraus abzuleiten.

Dabei ist klar: Je größer der Daten-Berg, je reichhaltiger die Daten, umso größer der Nutzen, den man abschürfen kann. Dafür braucht man neue und leistungsstarke IT-Lösungen und Systeme, mit denen die Informationen verarbeiten werden.

Daten, Daten und noch mehr Daten.

Egal, ob die Daten nur lose zusammenhängen, sich schnell verändern, weiter wachsen oder lückenhaft sind – Big Data ist die digitale Lösung für das digitale Problem, aus der digitalen Datensammlung Erkenntnisse zu gewinnen.

Intelligente Systeme aufgebaut auf Cloud-Rechnern ermöglichen es, in dem Datenstrom ein Bekenntnis abzutrotzen und Aussagen abzuleiten. Das weltweite Datenvolumen verdoppelt sich alle zwei Jahre (Klaus Manhart: IDC-Studie zum Datenwachstum – Doppeltes Datenvolumen alle zwei Jahre. In: CIO 2011).

Die Datenmenge auf den Rechnern der Welt ist so groß, dass bald ein neues Wort erfunden werden muss: das Yottabyte, eine Eins mit 24 Nullen.

1 Yottabyte = 1.024 Zettabyte = ~10²⁴ Byte (100 Milliarden Festplatten zu 10 Terabyte).

Daten werden aus unzähligen Quellen gewonnen, doch vor allem aus Wissenschaft, Internet und Kommunikation

Als Datenquelle ist jegliche Bewegung zu begreifen: Ob Funkwellen, elektrische Impulse oder Licht. Die Sensoren und Tastaturen der Welt digitalisieren Inhaltsdaten, Metadaten, Transaktionsdaten aus Bank- und Geschäftsverkehr, Verhaltensaufzeichnungen von geographischen und Surfbewegungen, Gesundheitsakten, Finanzdaten, Messergebnisse aus der Wissenschaft, dem Internet of Things und privaten Überwachungssystemen.

Die massenhafte Datenschöpfung ist deswegen nicht aufzufangen. Besonders in den Bereichen Wissenschaft, Internet und Kommunikation übersteigt die generierte Datenmasse jede Speichermöglichkeit. 99 Prozent aller im LHC-Teilchenbeschleuniger generierten Messungen müssen verworfen werden. Die Frage nach der Auswahl und ad-hoc-Auswertung drängt sich auf.

Die Suche nach brauchbaren Erkentnissen: Data-Mining

Wer Daten nutzen will, kauft sie von Anbietern wie Marktforschungsunternehmen oder nutzt die bereits vorliegenden öffentlichen oder privaten historischen und laufenden Quellen: Statistische Datenbanken, Websites, Onlinestores, Adresslisten, Produktionsdaten etc. Daten liegen überall in großen Mengen vor. Aber selbst wenn eine adäquate Lösung für die Speicherproblematik gefunden wurde – als Gewinn kann man die Daten noch nicht bezeichnen.

Data-Mining nennt man das Suchen von Erkenntnissen in dem Datenberg. Die Essenz der Datenfrüchte sind Muster, Modelle, Aussage, Hypothesenüberprüfungen. Schlaue Techniker, Programmierer, Statistiker und Menschen, die nach belastbaren Aussagen suchen und die Ergebnisse deuten können, benötigen eine gute technische Infrastruktur, um brauchbare Erkenntnisse aus dem Informationswust zu extrahieren.

Die Ernte und Vorverarbeitung ist auch bei Wein und Kaffee entscheidend. Die suche der Analysten nach der Essenz ihrer Früchte ist ungleich weniger schön anzusehen. Die abstrakten und technischen Probleme zu lösen, sind harte kreative Aufgaben.

Die Wissensentdeckung in Datenbanken mit statistischer Signifikanz

Knowledge Discovery in Databases (“KKID”) beschreibt diesen Teil der Big Data-Welt also besser: Nicht Daten, sondern Wissen wird beim Data-Mining gewonnen. Und neues Wissen ist dann gut, wenn es statistisch signifikant, neu und nützlich ist. Sonst war viel Arbeit umsonst. Aber was ist statistische Signifikanz?

Nicht jeder muss Analyst werden, also gilt hier kurz gefasst: Zusammenhänge zwischen A und B dürfen nach statistischen Kriterien nicht zufällig sein, sondern müssen – soweit man das sagen kann – systematischen Ursprung haben.

Dieses enorm komplexe Problem der Statistik kann man allerdings in der Geschäftspraxis bisweilen vermeiden. Wenn man die Analyseergebnisse experimentell überprüfen kann, kann man sich viel Zeit und wissenschaftlichen Aufwand sparen.

Big Data ist in der Wirtschaft angekommen, z.B. in der Werbung und Landwirtschaft

Seiner Zeit voraus sein. Oder wenigstens besser als der Konkurrent. Für kleine Vorteile geht der Mensch weit. Entsprechend überrascht es nicht, dass Big Data langsam aus dem Forschungskontext in die Welt der Industrie und mittelständischen Unternehmen rückt.

Heute ist die Werbung nach Umsatz der größte Markt für Big Data-Dienstleistungen. Direkt danach kommt die Datenlizensierung. Die Unternehmen versprechen sich eine neue Welt des Wirtschaftens. Individuell an die Marktlage anpassbare Produktions- und Liefersysteme sollen Effizienz steigern und Kosten senken. Die Planung von Bedarf und Absatz auf der Basis einer Vielzahl von bisher kaum zu berücksichtigenden Einflussfaktoren wird perfekte Geschäftsführung ermöglichen.

Ein Beispiel dafür ist die optimierte Feldernutzung in der Landwirtschaft abhängig von Klima, Boden, Saattechnik und Bedarf. Die Grenzen und Knappheiten der Realität werden enorm verschoben.

Big Data verändert unsere Welt: Von Manipulationen bis hin zu neuen Geschäftsfeldern

Ebenso wichtig sind Stimmungsanalysen, die Produktattraktivität in Echtzeit abbilden können. Oder Medien, die – wie Facebook in einer Studie zeigte – systematisch das Befinden der Nutzer zu manipulieren im Stande sind. Adam Kramer von Facebook erstellt auf der Basis der Unternehmensdaten einen Nationalen Index für Bruttosozialglück. Der Mitarbeiter der Innovationsabteilung sucht gezielt nach Potentialen digitalisierter Kommunikation.

Experimente mit Millionen von Nutzern sind technisch möglich – und werden in Angriff genommen. Denn Durchführung und Auswertung sind dank der Big Data-Infrastruktur des Netzwerks kein Problem.

Neue Technik führt zu neuen Geschäftsfeldern. Neue Lösungen für alte Probleme werden denkbar:

Sharing Economy auf der Basis von Sensorüberwachung
Cloudservices für allgemeinverfügbare Informationen
Werbewirkungsanalysen
Marktforschung
Betrugsverhinderung
Diagnostik in der Medizin
automatische und exakte Rechnungslegung im Energie und Kommunikationsbereich

Die Welt wird verändert, überall.

Big Data und seine politische Bedeutung: Von Volkszählungen bis zur Wahlkampfplanung

Russland verpflichtete russische Firmen jüngst zur Datensammlung. In Deutschland verfolgt der Innenminister mit der Vorratsdatenspreicherung das Ziel nationaler Sicherheit in den USA haben die US-Geheimdienste aktiv an der Entstehung und Konzeption der Datenkraken Google, Facebook und Co. mitgewirkt.

Informationen und Einfluss, die aus dem Datenmeer erwachsen, scheinen für Nationen existentielle Werte zu sein. Strategisch wichtige Entscheidungshilfen sind schon immer genutzt worden – mit den Studien der Wirtschaftswissenschaftler und Volkszählungen bisweilen sogar echte Vorläufer von Big Data. Ob Rechnungsprüfung, Wirtschafts- und Sozialpolitik, Steuern und Netzwerkanalysen: Bis hin zur Wahlkampfplanung birgt Big Data entscheidendes Potential.

Big Data wird zur demokratischen Kontrollinstanz

In Wirtschaft wie in Politik wird nun erkennbar, wie schmerzhaft-notwendig es ist, nicht einfach den Mächtigen die Daten- und Analysehoheit zu überlassen. Der Schutz von Daten, Privatsphäre und Urheberrechten bekommt eine ganz neue rechtsstaatliche Brisanz.

Die Erkenntnis, dass Fortschritte und Erfindungen dann am wirkungsvollsten sind, wenn sie allgemein zugänglich sind, ist eine Erkenntnis, die auch Big Data betrifft.

Open Data, das Freistellen von Daten insbesondere aus Steuermitteln finanzierter Datenbanken, ist eine weltweite Bewegung geworden. Eine ganz Reihe von Tüftlern hebt nun die Schätze dieser Daten und stellt die Funde der Gemeinschaft wieder zur Verfügung.

Die Datenanalyse erfolgt durch die Verknüpfung von Eigenschaften

Nachdem diesem groben Überblick über Big Data wenden wir uns jetzt noch einmal der konkreten Analyse zu. Die Organisation von Daten ist dafür eine der wichtigsten Grundlagen. Datenbanken sind eine Ansammlung so genannter Merkmalsausprägungen.

Ein Beispiel: Geschlecht ist ein Merkmal, die Ausprägung dann also “weiblich”. Auf diese Weise werden in Datenbanken, ähnlich wie in Tabellen, Aussagen über Eigenschaften vieler Beobachtungen miteinander verknüpft. Wie im Telefonbuch, das Name mit Adresse und Nummer in einer bestimmten Systematik verbindet. Natürlich geht das noch mit sehr viel mehr Merkmalen gleichzeitig: Das ist der Anfang der multivariaten Datenbanken und Statistik.

Google als allgemeinverfügbare Big Data-Anwendung mit riesigen Rechenleistungen

Bei Big Data werden diese Datenbanken nun riesig: Viele Merkmale, Ausprägungen, in Reihen, Spalten, Zeitreihen, und mehrdimensionalen “Tabellen” sind möglich. Die Untersuchung solcher Datenlandschaften erfordert enorme Rechenkapazitäten.

Wenn aber auch noch Echtzeituntersuchungen, Import von neuen Daten, schnelle und gleichzeitige Datenabfragen, Überschreibungen oder verschiedene Informationstypen wie Zahlen, Sprache, Texte oder Bilder hinzukommen, wird erkennbar, welche Leistung beispielsweise die Mutter allgemeinverfügbarer Big Data-Anwendungen – Google – vollbracht hat. Es ist enorm.

Werbung: Angebot von der Telekom: Holen Sie sich Ihre optimale HomeOffice-Ausstattung.

Lässt Big Data in die Zukunft schauen? Ja, durch die Verknüpfung von Datenquellen und Inhalten

Die Verschränkung von Datenquellen und Inhalten ermöglicht es, überraschende Einblicke zu sammeln. Tweets zu bestimmten Restaurants oder Check-Ins bei Bars, wie sie bei Facebook oder FourSquare möglich sind, können mit Metadaten verbunden Hinweise darüber geben, wo schlechtes oder verdorbenes Essen angeboten wird.

Zielsicher konnten in einer Studie Restaurants mit schlechter Hygiene ausfindig gemacht werden. Auch bei Katastrophen können aus der Twitterwolke Informationen zu Ausmaß und bester Hilfsstrategie gewonnen werden. Wo brennt es am meisten? Wer ist am schlimmsten betroffen? Wie wohin mit der Hilfe?

Ähnlich wie Facebook aus dem Nutzerverhalten Rückschlüsse auf die wirtschaftliche und emotionale Situation der Nutzer ziehen kann – bis hin zur zuverlässigen Prognose eines baldigen Beziehungsendes – kann man anhand korrelierter Vorverhaltensweisen künftige Krisenherde, Epidemien und sogar Verbrechen vorhersagen. Jedenfalls versucht eine ganze Industrie gerade, die entsprechenden Techniken zu verbessern.

Dabei setzt man nicht nur auf die Erkennung bekannter Muster, also Data-Mining. Auch automatisiertes Data-Mining, maschinelles Lernen genannt, soll diesen Prozess in Zukunft verbessern. Die Weiterentwicklung von Datenbanksystemen und Indexstrukturen sind wichtige Grundlage jeder Analyse.

Gleiches gilt für die genannten semantischen Suchmöglichkeiten: Plagiatskontrolle über Textvergleiche und grammatische Überprüfung von Text und Sprache. Bis hin zur Kontrolle von Datenbanken auf systemische Fehler und Softwarecodes auf Hackereingriffe kann Big Data Unregelmäßigkeiten und Eigentümlichkeiten abrufbar und nutzbar machen.

Big Data soll helfen, kritische Informationen glaubhaft verifizieren zu können

Es ist der Traum von Big Data-Experten, nicht nur neue Märkte und geringere Kosten zu ermöglichen, sondern die Gunst der Stunde zu erkennen. Welcher Moment ist entscheidend? Auf der Basis von Datenmustern der Geschichte und Anzeichen für Veränderungen lassen sich Hypothesen treffen.

Twitter konnte zwei Minuten vor der Börse den großen Absturz der BlackBerry-Aktien vorhersagen. Osama Bin Ladens Tod war 20 Minuten vor den ersten Zeitungen sichtbar – und aufgrund von Netzwerkanalysen und Schwarmintelligenztheorien glaubhaft.

Kritische Informationen glaubhaft verifizieren zu können, ist die Hoffnung, die in Big Data gesetzt wird. Die Big Data-Experten trainieren ihre Tools also auf größere Aussagekraft.

Auch Big Data birgt Gefahren: Absichtliches manipulatives Verhalten und die fehlende Seriosität bei der Auswertung

Die Gegenspieler bei diesem Training sind – neben unvollständigen und ungeordneten Datenbanken – manipulierte Datenbanken. Fehlende Teile, veränderte Datenstrecken, hinzugefügte extreme Werte, die das Bild verzerren. Twitterbomben können punktuell politische Rennen verändern. Googlebomben prägen das Bild, das wir von Menschen haben.

Als der ehemalige US-Senator Rick Santorum im Rahmen seines provozierend-konservativen Präsidentschaftswahlkampfes Gegenwind bekam, wurde sein Name in den sozialen Netzwerken und diversen Blogs mit Schlüsselbegriffen verknüpft, die auch sein Google-Ranking beeinflussten. So wurde er gezielt und nachhaltig diskreditiert.

Die Bombe auf Twitter, in Blogs und Google hinterließ tiefe Spuren. Es ist eine kontroverse Frage, ob eine aktuelle Diskussion und engagierte politische Gruppen die Online-Reputation von Personen (oder Unternehmen, wie im Fall von BP oder Shitstorms) dermaßen dominieren dürfen. Und ob der vorgeblich unparteiische Analyse-Algorithmus von Google dieses Bild ohne redaktionelle Prüfung weitergeben können soll.

Es gibt hier aber ebenso Hoffnung – denn technisch ist es leicht möglich, solche prägenden Trends zu identifizieren. Einige Manipulationsarten werden so leicht erkennbar.

Ein anderes Problem ist fehlende Seriosität bei der Auswertung von Daten: Wenn statistische Arbeitsregeln nicht ausreichend beachtet werden, im Vorfeld keine klaren Hypothesen aufgestellt werden, sind viele Analyseergebnisse denkbar. Die Zuverlässigkeit und Überprüfbarkeit leidet.

Werbung: Angebot von der Telekom: Holen Sie sich Ihre optimale HomeOffice-Ausstattung.

Big Data bringt eine grosse gesellschaftliche Verantwortung mit sich

Datenschutz, Korrelation, Repräsentativität, Qualität und Aussagekraft: Der Technik ist es egal, wie sie genutzt oder verhunzt wird. Das Thema Big Data ist jedoch so wichtig, ein sogenannter “Megatrend”, dass Eingeweihte Milliarden in das Feld investieren und sich auf ein Abenteuer begeben.

Viele Erfahrungen werden auf dem Weg eingesammelt und beim Probieren Fehler und Fortschritte gemacht. Der einfachste Weg ist ein Anfang, der erfolgreichste unbekannt. Deswegen kann man keine fertigen Lösungen verlangen, sondern muss die ganze Gesellschaft mitnehmen und an den Vorteilen und Risiken der Technik teilhaben lassen. Die gesellschaftliche Diskussion wird zu einem Konsens führen, welche Rolle Moral, Psyche und Recht bei dieser Innovation spielen sollen.

Die Probleme durch Big Data scheinen vorprogrammiert zu sein

Konflikte lauern überall: Überwachung, Feedback, Klassenordnung, Gruppierungen, Individualisierung und Anonymisierung sind nur erste Spielfelder. Von der Rasterfahndung bis zur Kreditwürdigkeit und den intimsten Gesundheitsdaten geht Big Data unter die Haut.

Menschliche Entscheidungen werden im digitalen Raum ständig überprüfbar sein. Individuelle Fehler werden für andere und einen selbst potentiell sichtbar. Ein Vorgeschmack? Schauen Sie doch mal, in welche Cluster Google Sie eingeteilt hat.

Ein Konsens über Big Data ist unerlässlich! Der Big Data-Blog diskutiert darüber!

Big Data verspricht nicht nur neues Wissen, sondern auch neues Denken. Die Systeme der Wissensgewinnung und unser Verständnis von Wissen als Herrschaftsgrundlage wandeln sich in diesem Moment extrem. Die Weltformel rückt scheinbar wieder in greifbare Nähe angesichts globaler Kommunikationsnetzwerke und Experimenten, die ganze Regionen über eine Manipulation der Facebook Timeline in gesteuerte Stimmungen stürzen.

Der Sozialwissenschaftler und Systemtheoretiker Niklas Luhmann hat seine Bücher mithilfe einer Zetteldatenbank geschrieben. Ein Kasten voller Karteikarten mit Sätzen und verbunden mit Verweisen. Die Zettel selbst waren nur in chronologischer Ordnung. Die Verweise waren das Muster, das es Luhmann ermöglichte, seine Thesen argumentativ zusammenzusetzen. Die sind heute zum Verständnis komplexer Systeme – ob sozial, technisch oder biologisch, grundlegend.

Über 30 Jahre haben IT-Entwickler seine Theorien nachvollzogen. Big Data bricht aus diesem Rahmen aus, der Zettelkasten wird digitalisiert und die gesellschaftliche Rolle von Datenanalyse wird neu gefunden. Wem gehören die Daten? Wer darf sie wie untersuchen? Wer bewacht die Einhaltung der Regel?

Das diskutiert der Big Data-Blog!

In der Vorstellung von Bergmann ist New Work eine Kombination aus Selbstverwirklichung, Selbstbestimmung und Selbstversorgung. Und das gute ist: Die Idee, dass Arbeit die Menschen mit Sinn erfüllen soll, ist in den Köpfen vieler Menschen bereits angekommen.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Meine persönliche Zusammenfassung von Big Data

Was ist „Big Data“?

Big Data wird als Sammelbegriff für moderne Technologien verwendet um nachhaltig auf die Sammlung, Nutzung, Verwertung, Strukturierung, Vermarktung und vor allem Analyse der digitaler Massen-Daten zu reagieren.

Big Data bezeichnet die Möglichkeit, gigantische Mengen an Daten zu erheben, zu speichern und zu analysieren.
Die Korrelation der Ergebnisse zählt mehr als die Kausalität: Bei Big Data ist das „was“ wichtiger als das „warum“.
Bei Big Data wird, wenn möglich, die „alle“ Daten in Betracht gezogen. Vor einigen Jahrzehnten war ein solches Vorgehen nur Regierungen und Großkonzernen möglich. Die Digitalisierung und neue Cloud Speicher Systeme haben dazu geführt, dass jeder die Sammel-, Analyse- und Speicherkapazitäten zur Verfügung hat.
Jedoch, je mehr Daten ein Unternehmen sammelt, desto mehr nimmt die Unschärfe zu.
Im Zeitalter der Exaktheit ist es eine Kür, die kleinen Fehler zu erkennen.
Daher geht es zum Einen um die große Menge der Daten und zum anderen um die Systeme, mit denen diese Massen von Daten effizient verarbeitet werden können.
Um was für Daten geht es bei Big Data?
Echtzeitdatenanalyse, Daten aus Machine Learning/Künstliche Intelligenz, Daten aus Predictive Maintenance von Anlagen und Maschinen, Daten aus Supply Chain Management, Daten aus Lager- und Intralogistik, Transaktionsdaten, Internet-Clickstreams, Protokolle von Webservern, Einzelverbindungsnachweise für Mobiltelefone, Informationen von Sensoren, Berichte über Social-Media-Aktivitäten.

Jede technologische Revolution verlangt jedoch auch neuen Regeln, auch Big Data.

Verantwortung für die Daten auf Nutzer übertragen: Jeder neue Verwendungszweck von personenbezogenen Daten muss einer Datenschutzregel unterliegen. Bei Verstößen sollten Menschen oder Unternehmen voll haftbar gemacht werden.
Mensch sticht Vorhersagen: Jedes Individuum darf nur nach seinen Taten, nicht seinen Absichten beurteilt werden. Was heute als Selbstverständlichkeit gilt, sollte explizit formuliert werden. Jeder Mensch bleibt für sein Handeln selbst verantwortlich.
Keine Black Box: Die Algorithmen von Datenanalysen müssen transparent gemacht und von unabhängigen Experten überwacht werden, damit die Technik keine Eigendynamik entwickelt.
Digitale Daten Supermächte verhindern: Auch wenn es eine Utopie ist, wir sollten jeden Big-Data-Monopole bekämpfen.

Harmonische Systeme sind dumme Systeme! In der Natur entstehen Ordnungsmuster immer aus Widerspruch, nicht aus Harmonie.

Prof. Dr. Peter Kurse