Size matters: Big Data, kommt es wirklich auf die Größe an?
©marekuliasz_@shutterstock.com

Size matters: Big Data, kommt es wirklich auf die Größe an?

Der Wert von großen Datenmengen ergibt sich aus ihrer Nützlichkeit. Unternehmen und Organisationen stellen immer häufiger fest, dass sie ihre erfassten und gespeicherten Daten in wertvolles Wissen verwandeln können. Wenn Daten richtig ausgewertet werden, dann erhält man Informationen über die Produktion, die Mitarbeiter, den Vertrieb oder das Verhalten der Kunden.

Um betriebliche Abläufe besser zu verstehen und in Zukunft bessere Entscheidungen zu treffen, begannen Unternehmen große Datenmengen zu sammeln und auszuwerten. Die Supermarktkette Wal-Mart verfügte eine gewisse Zeit lang über die zweitgrößte Datensammlung der Welt. Um den schwammigen Begriff “Big Data” genauer zu definieren, bestimmte IBM vier Faktoren, die auch die „vier Vs“ genannt werden:

  • Volume (Datenvolumen),
  • Velocity (Verarbeitungsgeschwindigkeit),
  • Variety (Datenvarietät) und
  • Veracity (Richtigkeit der Daten)

Drei der vier Vs sind Faktoren, die mit der tatsächlichen Menge von Daten korrelieren. Insofern ist die Frage naheliegend: Wie groß sind diese Datenmengen, um von Big Data sprechen zu können?

„3 von 4 Faktoren der Def. von #BigData hat mit der Datenmenge zu tun. Wie wichtig ist Größe wirklich?“

Twittern WhatsApp

Wie groß ist wirklich groß?

Wie groß muss ein Set an Daten sein, um als Big Data zu gelten? Mehrere hundert Gigabyte? Ein Terabyte? Ein Petabyte? Diese Frage lässt sich auf diese Weise nicht konkret und ein für alle Mal beantworten. Egal wo eine Grenze festgesetzt werden würde, ab der Big Data “Big” ist, sie würde nur für eine kurze Zeit gelten. Was wir noch vor kurzer Zeit als sehr groß empfunden haben, erscheint wenige Geräte-Generationen als klein.

Die Gründe dafür sind vielfältig: Speichermedien waren nicht von Anfang an schnell, billig und leicht herzustellen. Erst in den letzten 10 Jahren wurden hier riesige Fortschritte erzielt und entsprechend vermehrt Daten gespeichert. Auch die Performance von Prozessoren spielt eine entscheidende Rolle. Wenn ein Superrechner sehr große Datenmengen in kürzester Zeit verarbeiten kann, erscheint die Datenmengen nicht mehr als besonders „groß“. Größe ist in diesem Bereich also sehr relativ und nicht unbedingt das entscheidende Kriterium für „Big Data“.

Big Data bezeichnet Datenmengen, die

  • zu groß oder
  • zu komplex sind oder
  • sich zu schnell ändern oder
  • zu schwach strukturiert sind.

Big Data als Methode

Der Begriff Big Data wird mit vielen verschiedenen Aspekten assoziiert, so dass in der Diskussion über Big Data manchmal unklar ist, worum es eigentlich geht. Nimmt man zunächst die wörtliche Bedeutung von Big Data, so handelt es sich um sehr große, komplexe Datenmengen. Sein negatives Image erhielt der Begriff im Zusammenhang mit Datenschutzproblemen und dem Aspekt der Kontrolle, die Unternehmen und staatliche Organisationen ausüben können. Big Data ist aber auch eine bestimmte Methode, um mit Daten umzugehen. Unabhängig von der tatsächlichen Datenmenge lassen sich diese Methoden auch auf verhältnismäßig kleinere Datenmengen anwenden.

„Nur eine genaue Vorstellung von #BigData erlaubt auch einen sinnvollen Diskurs darüber.“

Twittern WhatsApp

Nimmt man beispielsweise eine bestimmte Menge von Textdaten. Im Rahmen von Big-Data-Analysen geht es in erster Linie gerade nicht darum, den konkreten Inhalt dieser Textdokumente auszuwerten. Die Fragestellungen, mit der Big-Data-Analysten an Daten herangehen, verfolgen im Regelfall die Absicht, ein bestimmtes Muster zu erkennen. Bei der Sentimentanalyse, geht es etwa um die Auswertung von Millionen von Tweets. Die Absicht könnte beispielsweise sein herauszufinden, wie bei einer kommenden Wahl ein Kandidat wahrscheinlich abschneidet. Gibt es Themen, die besonders gut oder besonders schlecht ankommen? Um solche Fragen zu beantworten wird nun nicht jeder einzelne Tweet gelesen. Die Gesamtheit der Tweets wird nach der Anzahl von bestimmten Textmustern durchsucht, um sagen zu können, welche Stimmung bei den Menschen die vorherrschende ist.

Das Internet der Dinge wird Big Data in den Schatten stellen

Predictive Maintenance: Ein Kernstück der Industrie 4.0. | Big Data Blog

Predictive Maintenance sagt wahrscheinliche Ausfälle vorher: Sensoren registrieren kleinste Veränderungen in Getrieben, Leitungen oder Werkteilen.

bigdatablog.de

Ganz egal wie große das Volumen von Daten im Moment auch wird und wo die Grenze zwischen Big Data und „Small Data“ gezogen wird. Die Größenordnungen werden sich in den kommenden Jahren durch das Internet der Dinge massiv verschieben. Unter dem Begriff des Internets der Dinge, manchmal auch Internet of Everything genannt, wird die vollständige Vernetzung von wirklich allem möglichen. Angefangen von der Kuh, die einen Chip im Ohr trägt, sämtliche Werkteile in einer Produktionsstraße, Verbindungsdaten, Kühlschränke in der Küche, Rasierklingen, Sensoren im Fußboden, die Temperatur und Feuchtigkeit messen, bis hin zu Verkehrsampeln und Messsystemen im Abwassersystem in der Smart City.
Sieht man für einen Moment von der Diskussion über Datensicherheit und Kontrolle kurz ab und betrachtet nur den technischen Aspekt, so ist jetzt schon klar: Es wird eine unvorstellbare Menge an Daten anfallen. Wir verfügen im Moment nicht einmal über die passenden Vergleichsmaßstäbe, um die Datenmenge, über die wir verfügen werden, zu bemessen. Entsprechend drängend ist die Fragen nach der Entwicklung der Rechenleistung und der Speichermedien. Vielleicht war es verfrüht, den Begriff „Big Data“ einzuführen, wenn man in naher Zukunft auf die heutigen Datenmengen zurückblicken wird. Denn soviel steht heute schon fest: Die eigentliche Ära von Big Data steht uns erst noch bevor.

Big Data ist auch Thema auf deiner Veranstaltung? Wir können dir noch einige Speaker empfehlen.

Retweets

Jetzt retweeten

Wie fühlen Sie sich nach der Lektüre dieses Blogbeitrags?

"Size matters: Big Data, kommt es wirklich auf die Größe an?"