Eine Überblick zum Thema Big Data

“Der Mensch kann nicht kommunizieren; nur die Kommunikation kann kommunizieren.“

Was sich esoterisch anhört, ist eine Grundaussage der Systemtheorie Niklas Luhmanns. Ob Zellaufbau, Gesellschaften oder Psychologie – der So­zi­al­theo­re­ti­ker hat in den 1980er Jahren viele Umwältzungen vorgedacht, die uns heute sprachlos machen: Big Data ist eine davon.

Durch die Digitalisierung entstehen Massen an Daten

Daten sind Kleinstinformationen, die einst nur als Bild im Kopf, später in Sprache, Schrift, Büchern und als Datei auf Tablets oder Rechnern existieren. Man ahnt es schon: Der technische Fortschritt hat stets dafür gesorgt, dass weniger Wissen verloren geht. Die Digitalisierung ermöglicht es jetzt, gar nichts mehr vergessen zu müssen. Je mehr Kommunikation digital erfolgt, umso mehr Daten entstehen, werden transferiert und gespeichert. Zumindest übergangsweise.

Das System, die Kommunikation selbst, archiviert sich und sorgt für den eigenen Fortbestand. Ganz nach Luhmanns Diktum stehen die Kom­mu­ni­ka­ti­onsme­tada­ten, also die Daten über Kommunikation – was, wer, wann, wo und wie – den Inhalten der Kommunikation in ihrer Aussagekraft nicht nach. Ob digitale Kommunikations- oder Sensor- und Prozessdaten, in der richtigen Lesart sind sie alle von Interesse. 300 Milliarden Twitter-Nachrichten sind bis heute versendet worden. Jede Sekunde kommen 5000 hinzu.

Mit Big Data gewinnt man Erkenntnisse aus den Datenmassen

Der Datenberg wird immer größer, ganz automatisch. Auf der Suche nach Nutzen und Vorteil wird so viel gespeichert wie nur möglich. Datenkraken nennt man die Unternehmen, die dabei die Interessen der Menschen nicht berücksichtigen. Erfinder nennt man die, die die Daten nutzen, um die Welt besser zu machen. Effizienter, ressourcenschonender oder schneller.

Je größer der Berg, desto schwieriger wird es, Zusammenhänge, Muster und Aussagen daraus abzuleiten. Dabei ist klar: Je größer der Berg, je reichhaltiger die Daten, umso größer der Nutzen, den man abschürfen kann. Big Data macht Datenberge in Übergröße nutzbar zu machen.

Es reicht nicht aus, etwas zu besitzen. Aus dem Besitz muss sich ein Nutzen ergeben.

Egal, ob die Daten nur lose zusammenhängen, sich schnell verändern, weiter wachsen oder lückenhaft sind – Big Data ist die digitale Lösung für das digitale Problem, aus der digitalen Datensammlung Erkenntnisse zu gewinnen.

Intelligente Systeme aufgebaut auf Cloud-Rechnern ermöglichen es, in dem Datenstrom ein Bekenntnis abzutrotzen und Aussagen abzuleiten. Das weltweite Datenvolumen verdoppelt sich alle zwei Jahre (Klaus Manhart: IDC-Studie zum Datenwachstum – Doppeltes Datenvolumen alle zwei Jahre. In: CIO 2011). Die Datenmenge auf den Rechnern der Welt ist so groß, dass bald ein neues Wort erfunden werden muss: das Yottabyte, eine Eins mit 24 Nullen.

Daten werden aus unzähligen Quellen gewonnen, doch vor allem aus Wissenschaft, Internet und Kommunikation

Als Datenquelle ist jegliche Bewegung zu begreifen: Ob Funkwellen, elektrische Impulse oder Licht. Die Sensoren und Tastaturen der Welt digitalisieren In­halts­da­ten, Metadaten, Transaktionsdaten aus Bank- und Geschäftsverkehr, Verhaltensaufzeichnungen von geographischen und Surfbewegungen, Ge­sund­heits­ak­ten, Finanzdaten, Messergebnisse aus der Wissenschaft, dem Internet of Things und privaten Überwachungssystemen.

Die massenhafte Datenschöpfung ist deswegen nicht aufzufangen. Besonders in den Bereichen Wissenschaft, Internet und Kommunikation übersteigt die generierte Datenmasse jede Speichermöglichkeit. 99 Prozent aller im LHC-Teilchenbeschleuniger generierten Messungen müssen verworfen werden. Die Frage nach der Auswahl und ad-hoc-Auswertung drängt sich auf.

Die Suche nach brauchbaren Erkentnissen: Data-Mining

Wer Daten nutzen will, kauft sie von Anbietern wie Markt­for­schungs­un­ter­neh­men oder nutzt die bereits vorliegenden öffentlichen oder privaten his­to­ri­schen und laufenden Quellen: Statistische Datenbanken, Websites, On­line­stor­es, Adresslisten, Produktionsdaten etc. Daten liegen überall in großen Mengen vor. Aber selbst wenn eine adäquate Lösung für die Speicherproblematik gefunden wurde – als Gewinn kann man die Daten noch nicht bezeichnen.

Data-Mining nennt man das Suchen von Erkenntnissen in dem Datenberg. Die Essenz der Datenfrüchte sind Muster, Modelle, Aussage, Hy­po­the­sen­über­prü­fun­gen. Schlaue Techniker, Programmierer, Statistiker und Menschen, die nach belastbaren Aussagen suchen und die Ergebnisse deuten können, benötigen eine gute technische Infrastruktur, um brauchbare Erkenntnisse aus dem Informationswust zu extrahieren.

Drei interessante Beiträge zu Big Data-Analyse

MongoDB und Pentaho: BI-Analysen der nächsten Generation Weiterlesen

MongoDB und Pentaho: BI-Analysen der nächsten Generation

Self-Service Business Analytics: Reporting- und Analysetools kombinieren Weiterlesen

Self-Service Business Analytics: Reporting- und Analysetools kombinieren

Big Data Analytics: Datenanalysen mit Geschichten Weiterlesen

Big Data Analytics: Datenanalysen mit Geschichten

Die Ernte und Vorverarbeitung ist auch bei Wein und Kaffee entscheidend. Die suche der Analysten nach der Essenz ihrer Früchte ist ungleich weniger schön anzusehen. Die abstrakten und technischen Probleme zu lösen, sind harte kreative Aufgaben.

Die Wissensentdeckung in Datenbanken mit statistischer Signifikanz

Knowledge Discovery in Databases (“KKID”) beschreibt diesen Teil der Big Data-Welt also besser: Nicht Daten, sondern Wissen wird beim Data-Mining gewonnen. Und neues Wissen ist dann gut, wenn es statistisch signifikant, neu und nützlich ist. Sonst war viel Arbeit umsonst. Aber was ist statistische Signifikanz?

Nicht jeder muss Analyst werden, also gilt hier kurz gefasst: Zusammenhänge zwischen A und B dürfen nach statistischen Kriterien nicht zufällig sein, sondern müssen – soweit man das sagen kann – systematischen Ursprung haben.

Dieses enorm komplexe Problem der Statistik kann man allerdings in der Geschäftspraxis bisweilen vermeiden. Wenn man die Analyseergebnisse experimentell überprüfen kann, kann man sich viel Zeit und wissenschaftlichen Aufwand sparen.

Big Data ist in der Wirtschaft angekommen, z.B. in der Werbung und Landwirtschaft

Seiner Zeit voraus sein. Oder wenigstens besser als der Konkurrent. Für kleine Vorteile geht der Mensch weit. Entsprechend überrascht es nicht, dass Big Data langsam aus dem Forschungskontext in die Welt der Industrie und mit­tel­stän­di­schen Unternehmen rückt.

Der vernetzte Hof: Big Data in der Landwirtschaft

Die Digitalisierung bringt auch Big Data in die Landwirtschaft & ermöglicht ökonomischeres und ökologischeres Wirtschaften. Lerne jetzt die Vorteile kennen!

bigdatablog.de

Heute ist die Werbung nach Umsatz der größte Markt für Big Data-Dienst­leis­tun­gen. Direkt danach kommt die Datenlizensierung. Die Unternehmen ver­spre­chen sich eine neue Welt des Wirtschaftens. Individuell an die Marktlage anpassbare Produktions- und Liefersysteme sollen Effizienz steigern und Kosten senken. Die Planung von Bedarf und Absatz auf der Basis einer Vielzahl von bisher kaum zu berücksichtigenden Einflussfaktoren wird perfekte Geschäftsführung ermöglichen.

Ein Beispiel dafür ist die optimierte Feldernutzung in der Landwirtschaft abhängig von Klima, Boden, Saattechnik und Bedarf. Die Grenzen und Knappheiten der Realität werden enorm verschoben.

Big Data verändert unsere Welt: Von Manipulationen bis hin zu neuen Geschäftsfeldern

Ebenso wichtig sind Stimmungsanalysen, die Produktattraktivität in Echtzeit abbilden können. Oder Medien, die – wie Facebook in einer Studie zeigte – systematisch das Befinden der Nutzer zu manipulieren im Stande sind. Adam Kramer von Facebook erstellt auf der Basis der Unternehmensdaten einen Nationalen Index für Bruttosozialglück. Der Mitarbeiter der In­no­va­ti­ons­ab­tei­lung sucht gezielt nach Potentialen digitalisierter Kommunikation.

Experimente mit Millionen von Nutzern sind technisch möglich – und werden in Angriff genommen. Denn Durchführung und Auswertung sind dank der Big Data-Infrastruktur des Netzwerks kein Problem.

Neue Technik führt zu neuen Geschäftsfeldern. Neue Lösungen für alte Probleme werden denkbar:

  • Sharing Economy auf der Basis von Sensorüberwachung
  • Cloudservices für allgemeinverfügbare Informationen
  • Werbewirkungsanalysen
  • Marktforschung
  • Betrugsverhinderung
  • Diagnostik in der Medizin
  • automatische und exakte Rechnungslegung im Energie und Kommunikationsbereich

Die Welt wird verändert, überall.

Big Data und seine politische Bedeutung: Von Volkszählungen bis zur Wahlkampfplanung

Russland verpflichtete russische Firmen jüngst zur Datensammlung. In Deutschland verfolgt der Innenminister mit der Vorratsdatenspreicherung das Ziel nationaler Sicherheit in den USA haben die US-Geheimdienste aktiv an der Entstehung und Konzeption der Datenkraken Google, Facebook und Co. mitgewirkt.

Informationen und Einfluss, die aus dem Datenmeer erwachsen, scheinen für Nationen existentielle Werte zu sein. Strategisch wichtige Entscheidungshilfen sind schon immer genutzt worden – mit den Studien der Wirt­schafts­wis­sen­schaft­ler und Volkszählungen bisweilen sogar echte Vorläufer von Big Data. Ob Rechnungsprüfung, Wirtschafts- und Sozialpolitik, Steuern und Netz­werk­ana­ly­sen: Bis hin zur Wahlkampfplanung birgt Big Data entscheidendes Potential.

Big Data wird zur demokratischen Kontrollinstanz

In Wirtschaft wie in Politik wird nun erkennbar, wie schmerzhaft-notwendig es ist, nicht einfach den Mächtigen die Daten- und Analysehoheit zu überlassen. Der Schutz von Daten, Privatsphäre und Urheberrechten bekommt eine ganz neue rechtsstaatliche Brisanz.

Die Erkenntnis, dass Fortschritte und Erfindungen dann am wir­kungs­volls­ten sind, wenn sie allgemein zugänglich sind, ist eine Erkenntnis, die auch Big Data betrifft.

Open Data, das Freistellen von Daten insbesondere aus Steuermitteln finanzierter Datenbanken, ist eine weltweite Bewegung geworden. Eine ganz Reihe von Tüftlern hebt nun die Schätze dieser Daten und stellt die Funde der Gemeinschaft wieder zur Verfügung.

Die Datenanalyse erfolgt durch die Verknüpfung von Eigenschaften

Nachdem diesem groben Überblick über Big Data wenden wir uns jetzt noch einmal der konkreten Analyse zu. Die Organisation von Daten ist dafür eine der wichtigsten Grundlagen. Datenbanken sind eine Ansammlung so genannter Merkmalsausprägungen.

Ein Beispiel: Geschlecht ist ein Merkmal, die Ausprägung dann also “weiblich”. Auf diese Weise werden in Datenbanken, ähnlich wie in Tabellen, Aussagen über Eigenschaften vieler Beobachtungen miteinander verknüpft. Wie im Telefonbuch, das Name mit Adresse und Nummer in einer bestimmten Systematik verbindet. Natürlich geht das noch mit sehr viel mehr Merkmalen gleichzeitig: Das ist der Anfang der multivariaten Datenbanken und Statistik.

Google als allgemeinverfügbare Big Data-Anwendung mit riesigen Rechenleistungen

Bei Big Data werden diese Datenbanken nun riesig: Viele Merkmale, Ausprägungen, in Reihen, Spalten, Zeitreihen, und mehrdimensionalen “Tabellen” sind möglich. Die Untersuchung solcher Datenlandschaften erfordert enorme Rechenkapazitäten.

Wenn aber auch noch Echtzeituntersuchungen, Import von neuen Daten, schnelle und gleichzeitige Datenabfragen, Überschreibungen oder ver­schie­de­ne Informationstypen wie Zahlen, Sprache, Texte oder Bilder hinzukommen, wird erkennbar, welche Leistung beispielsweise die Mutter all­ge­mein­ver­füg­ba­rer Big Data-Anwendungen – Google – vollbracht hat. Es ist enorm.

Lässt Big Data in die Zukunft schauen? Ja, durch die Verknüpfung von Datenquellen und Inhalten

Die Verschränkung von Datenquellen und Inhalten ermöglicht es, über­ra­schen­de Einblicke zu sammeln. Tweets zu bestimmten Restaurants oder Check-Ins bei Bars, wie sie bei Facebook oder FourSquare möglich sind, können mit Metadaten verbunden Hinweise darüber geben, wo schlechtes oder ver­dor­be­nes Essen angeboten wird.

Zielsicher konnten in einer Studie Restaurants mit schlechter Hygiene ausfindig gemacht werden. Auch bei Katastrophen können aus der Twitterwolke Informationen zu Ausmaß und bester Hilfsstrategie gewonnen werden. Wo brennt es am meisten? Wer ist am schlimmsten betroffen? Wie wohin mit der Hilfe?

Ähnlich wie Facebook aus dem Nutzerverhalten Rückschlüsse auf die wirt­schaft­li­che und emotionale Situation der Nutzer ziehen kann – bis hin zur zuverlässigen Prognose eines baldigen Beziehungsendes – kann man anhand korrelierter Vorverhaltensweisen künftige Krisenherde, Epidemien und sogar Verbrechen vorhersagen. Jedenfalls versucht eine ganze Industrie gerade, die entsprechenden Techniken zu verbessern.

Drei spannende Beiträge über die Möglichkeiten des Vorhersehens mit Big Data

Predictive Maintenance: Ein Kernstück der Industrie 4.0. Weiterlesen

Predictive Maintenance: Ein Kernstück der Industrie 4.0.

Predictive Maintanence und Predictive Analytics: Interview mit Matthias Mierisch von arvato Systems Weiterlesen

Predictive Maintanence und Predictive Analytics: Interview mit Matthias Mierisch von arvato Systems

Predictive Policing: Big Data in der Polizeiarbeit Weiterlesen

Predictive Policing: Big Data in der Polizeiarbeit

Dabei setzt man nicht nur auf die Erkennung bekannter Muster, also Data-Mining. Auch automatisiertes Data-Mining, maschinelles Lernen genannt, soll diesen Prozess in Zukunft verbessern. Die Weiterentwicklung von Da­ten­bank­sys­te­men und Indexstrukturen sind wichtige Grundlage jeder Analyse.

Gleiches gilt für die genannten semantischen Suchmöglichkeiten: Pla­gi­ats­kon­trol­le über Textvergleiche und grammatische Überprüfung von Text und Sprache. Bis hin zur Kontrolle von Datenbanken auf systemische Fehler und Softwarecodes auf Hackereingriffe kann Big Data Unregelmäßigkeiten und Eigentümlichkeiten abrufbar und nutzbar machen.

Big Data soll helfen, kritische Informationen glaubhaft verifizieren zu können

Es ist der Traum von Big Data-Experten, nicht nur neue Märkte und geringere Kosten zu ermöglichen, sondern die Gunst der Stunde zu erkennen. Welcher Moment ist entscheidend? Auf der Basis von Datenmustern der Geschichte und Anzeichen für Veränderungen lassen sich Hypothesen treffen.

Twitter konnte zwei Minuten vor der Börse den großen Absturz der BlackBerry-Aktien vorhersagen. Osama Bin Ladens Tod war 20 Minuten vor den ersten Zeitungen sichtbar – und aufgrund von Netzwerkanalysen und Schwarm­in­tel­li­genz­theo­ri­en glaubhaft.

Kritische Informationen glaubhaft verifizieren zu können, ist die Hoffnung, die in Big Data gesetzt wird. Die Big Data-Experten trainieren ihre Tools also auf größere Aussagekraft.

Auch Big Data birgt Gefahren: Absichtliches manipulatives Verhalten und die fehlende Seriosität bei der Auswertung

Die Gegenspieler bei diesem Training sind – neben unvollständigen und ungeordneten Datenbanken – manipulierte Datenbanken. Fehlende Teile, veränderte Datenstrecken, hinzugefügte extreme Werte, die das Bild verzerren. Twitterbomben können punktuell politische Rennen verändern. Goog­le­bom­ben prägen das Bild, das wir von Menschen haben.

Big Data Risiken: Worauf Sie achten müssen!

Bei der Anwendung von Big Data gibt es ganz neue Risiken. Nur wenn diese beachtet werden, führen die Auswertungen zu korrekten Aussagen.

bigdatablog.de

Als der ehemalige US-Senator Rick Santorum im Rahmen seines provozierend-konservativen Präsidentschaftswahlkampfes Gegenwind bekam, wurde sein Name in den sozialen Netzwerken und diversen Blogs mit Schlüsselbegriffen verknüpft, die auch sein Google-Ranking beeinflussten. So wurde er gezielt und nachhaltig diskreditiert.

Die Bombe auf Twitter, in Blogs und Google hinterließ tiefe Spuren. Es ist eine kontroverse Frage, ob eine aktuelle Diskussion und engagierte politische Gruppen die Online-Reputation von Personen (oder Unternehmen, wie im Fall von BP oder Shitstorms) dermaßen dominieren dürfen. Und ob der vorgeblich unparteiische Analyse-Algorithmus von Google dieses Bild ohne redaktionelle Prüfung weitergeben können soll.

Es gibt hier aber ebenso Hoffnung – denn technisch ist es leicht möglich, solche prägenden Trends zu identifizieren. Einige Manipulationsarten werden so leicht erkennbar.

Ein anderes Problem ist fehlende Seriosität bei der Auswertung von Daten: Wenn statistische Arbeitsregeln nicht ausreichend beachtet werden, im Vorfeld keine klaren Hypothesen aufgestellt werden, sind viele Analyseergebnisse denkbar. Die Zuverlässigkeit und Überprüfbarkeit leidet.

Big Data bringt eine grosse gesellschaftliche Verantwortung mit sich

Datenschutz, Korrelation, Repräsentativität, Qualität und Aussagekraft: Der Technik ist es egal, wie sie genutzt oder verhunzt wird. Das Thema Big Data ist jedoch so wichtig, ein sogenannter “Megatrend”, dass Eingeweihte Milliarden in das Feld investieren und sich auf ein Abenteuer begeben.

Viele Erfahrungen werden auf dem Weg eingesammelt und beim Probieren Fehler und Fortschritte gemacht. Der einfachste Weg ist ein Anfang, der erfolgreichste unbekannt. Deswegen kann man keine fertigen Lösungen verlangen, sondern muss die ganze Gesellschaft mitnehmen und an den Vorteilen und Risiken der Technik teilhaben lassen. Die gesellschaftliche Diskussion wird zu einem Konsens führen, welche Rolle Moral, Psyche und Recht bei dieser Innovation spielen sollen.

Die Probleme durch Big Data scheinen vorprogrammiert zu sein

Big Data - Google is watching you | Big Data Blog

Google is watching you. Mit diesen Links lässt sich herausfinden, welche Daten Google speichert und wie sich entfernen lassen.

bigdatablog.de

Konflikte lauern überall: Überwachung, Feedback, Klassenordnung, Gruppierungen, Individualisierung und Anonymisierung sind nur erste Spielfelder. Von der Rasterfahndung bis zur Kreditwürdigkeit und den intimsten Gesundheitsdaten geht Big Data unter die Haut.

Menschliche Entscheidungen werden im digitalen Raum ständig überprüfbar sein. Individuelle Fehler werden für andere und einen selbst potentiell sichtbar. Ein Vorgeschmack? Schauen Sie doch mal, in welche Cluster Google Sie eingeteilt hat.

Ein Konsens über Big Data ist unerlässlich! Der Big Data-Blog diskutiert darüber!

Big Data verspricht nicht nur neues Wissen, sondern auch neues Denken. Die Systeme der Wissensgewinnung und unser Verständnis von Wissen als Herrschaftsgrundlage wandeln sich in diesem Moment extrem. Die Weltformel rückt scheinbar wieder in greifbare Nähe angesichts globaler Kom­mu­ni­ka­ti­ons­netz­wer­ke und Experimenten, die ganze Regionen über eine Manipulation der Facebook Timeline in gesteuerte Stimmungen stürzen.

Der Sozialwissenschaftler und Systemtheoretiker Niklas Luhmann hat seine Bücher mithilfe einer Zetteldatenbank geschrieben. Ein Kasten voller Karteikarten mit Sätzen und verbunden mit Verweisen. Die Zettel selbst waren nur in chronologischer Ordnung. Die Verweise waren das Muster, das es Luhmann ermöglichte, seine Thesen argumentativ zusammenzusetzen. Die sind heute zum Verständnis komplexer Systeme – ob sozial, technisch oder biologisch, grundlegend.

Über 30 Jahre haben IT-Entwickler seine Theorien nachvollzogen. Big Data bricht aus diesem Rahmen aus, der Zettelkasten wird digitalisiert und die gesellschaftliche Rolle von Datenanalyse wird neu gefunden. Wem gehören die Daten? Wer darf sie wie untersuchen? Wer bewacht die Einhaltung der Regel?

Das diskutiert der Big Data-Blog!

Diese Seiten sollten Sie ebenfalls besuchen

Medium Typ Sprache
datacenter-insider.de/ Themenportal Deutsch
computerwoche.de/k/big-data,3457 Ressort Deutsch
bigdatanews.com/ Themenportal Englisch
theguardian.com/data/big-data Ressort Englisch
informationweek.com/big-data.asp Ressort Englisch
infoworld.com/t/big-data Ressort Englisch
venturebeat.com/category/big-data/  Ressort Englisch
inside-bigdata.com/ Themenportal Englisch
fiercebigdata.com/ Themenportal Englisch
zdnet.com/topic-big-data/ Ressort Englisch
computerweekly.com/resources/Big-data-analytics Ressort Englisch
analyticsweek.com/ Themenportal Englisch
bigdataweek.com/ Englisch Englisch

 

Sie interessieren sich auch für Big Data oder haben Fragen?