Big Data, „große Daten“, ist ein seltsamer Begriff – irgendwie unernst, albern, gar nicht technisch und erst recht nicht „erhaben“. Dabei fasst Big Data eine ganze Reihe von Entwicklungen zusammen, die in ihrer Bedeutung für fast jeden Bereich unseres Lebens gar nicht überschätzt werden können: Es handelt sich um nicht weniger, als einen vollständigen Paradigmenwechsel, technologisch getrieben, aber schon längst weit jenseits der Technologie wirksam.
Nach dem World Wide Web vor 20 Jahren, Social Media (Web 2.0) vor 10 Jahren, ist es die dritte Welle von Technologie, die aus dem Internet entstanden ist und sich weltweit ausbreitet.
Aber was ist dieses „Big Data“?
Oft ist von den „Drei Vs“ die Rede: Volume, Velocity, Variety. Große Datenmengen, die in schneller Folge gemessen werden, sind aber für sich genommen noch nichts Neues. Datenbanken, die auf gewaltigen Servern in Rechenzentren hochperformant „EDV“ machen, gibt es schon lange. Relativ neu aber ist, dass es Betriebssysteme und Datenbanken gibt, die auf billiger Standard-Hardware laufen: viel leistungsfähiger und nahezu beliebig skalierbar, und das meiste davon ist also Open-Source-Anwendung frei verfügbar .
Hadoop: das Big-Data-Betriebssystem
Hadoop kann man als das „Betriebssystem“ von Big Data bezeichnen. Hadoop liefert ein Filesystem und eine Prozesssteuerung, die Daten und Rechenaufgaben auf viele einzelne Rechner verteilt. Um Hadoop hat sich schnell ein „Ökosystem“ aus frei verfügbaren sowie kommerziellen Anwendungen entwickelt – ähnlich wie wir es „damals“ mit Microsoft Windows und dem PC erlebt haben.
Cloud-Computing, wie Amazons Elastic Cloud Computing (EC2), ermöglicht es ohne großen Aufwand und ohne tiefe Fachkenntnisse, größte Datenmengen zu verarbeiten. Da sich die Preisgestaltung an der Rechenzeit orientiert, haben Kunden die Möglichkeit zunächst mit kleinen Datensätzen zu experimentieren und nach erfolgreichem Test zu skalieren. Selbst kleine Teams oder Einzelpersonen ist es damit möglich, eine Datenanalyse vorzunehmen, die vor kurzem ausschließlich größten Rechenzentren vorbehalten war.
Neue Datenbank-Welt
Darüber hinaus gibt es eine neue Datenbank-Welt, deren Protagonisten – um nur ein paar zu nennen – MongoDB, Couchbase oder Voldemort heißen. Diese Datenbanken sind dafür gemacht, unstrukturierte und teilstrukturierte Daten (z.B. Texte) zu verarbeiten. Der dafür häufig verwendete Begriff „NoSQL“ leitet allerdings in die Irre: Auch wenn viele der Big-Data-Datenbanken keine relationalen Systeme mit Tabellenlogik sind, haben die meisten eine Abfragesprache, die sich stark an der SQL-Struktur orientiert.
Das Dateiformat, dass sich in der Big-Data-Kultur für alle Metadaten durchgesetzt hat, ist die Java Script Object Notation. In der JSON werden Informationen als Paare von Schlüsseln und Werten dokumentiert, den sogenannten Key-Value Pairs (KVP). Metadaten sind größtenteils „unsichtbare“ Daten, die beispielsweise Bilder oder Videos beschreiben. Hierin sind etwa Datumsangaben, Ortsdaten oder Kameraeinstellungen vermerkt.
Python wird zum Standard
Für Datananalyse wird die Programmiersprache Python mehr und mehr zum Standard. Python ist relativ einfach zu lernen, da es in der Anwendung viel intuitiver als die meisten anderen Programmiersprachen ist. Für Python gibt es schon heute riesige Code-Bibliotheken, die praktisch jeden Bereich von Datenanalyse abdecken.
Kurzum: Es sind diese fünf Zutaten, die Big Data im Wesentlichen ausmachen: (1) Betriebssystem Hadoop, (2) Cloud-Computing, (3) Datenbanken für unstrukturierte Daten, (4) Metadaten in JSON und (5) Datenanalyse, beispielsweise in Python. Für jemanden, der sich noch nie intensiv mit Big Data befasst hat, mag das auf den ersten Blick verwirrend erscheinen. Doch das Beste an dieser dritten Technologiewelle ist, dass sich auf nahezu alle Fragen im Netz jede Menge Antworten finden lassen. Also: Keine Angst vor Big Data – einfach ausprobieren!