Big-Data-Strategie: Von den Rohdaten zur Erkenntnis

Unternehmen werden sich erst langsam über den Wert ihrer Daten bewusst. Auf ihren Servern befinden sich derzeit noch eher Datenfriedhöfe als Data Warehouses. Die Voraussetzung für ihre Nutzung ist zunächst ein Bewusstsein für den Wert von Daten.

Welche Zusammenhänge gibt es zwischen Daten aus dem Web (aus Blogs, Tweets und Kommentaren), Auftragsdatenbanken und den Produktionsdaten aus dem Maschinenpark?

Der überwiegende Teil des Mittelstandes vernachlässigt bislang die Chancen, die mit der Digitalisierung und Big Data verbunden sind. Diejenigen Unternehmen, die neue Technologien zur Innovation nutzen, optimieren ihre Prozesse und erschließen neue Geschäftsfelder.

Dabei ist es heute leichter denn je, Big-Data-Lösungen zu realisieren. Dank günstig verfügbarer Technologien wie Hadoop oder Spark sind Big-Data-Projekte, die bis vor wenigen Jahren nur führenden Großkonzernen zur Verfügung standen, erschwinglich. Mit kleineren Teams lassen sich so auch in kleineren und mittelständischen Unternehmen Big-Data-Technologien einsetzen. Um von den Rohdaten zur Erkenntnis zu gelangen sind die folgenden 5 zentrale Eckpunkte zu beachten.

1. Datengenerierung und Datenerwerb

Die Ausgangslage eines Unternehmens oder einer Organisation vor der Entscheidung, Big Data anzuwenden, kann sehr unterschiedlich sein. Daten können bereits in großen Mengen vorhanden sein. Oft müssen diese aber erst generiert oder durch generierte Daten erweitert werden. Dazu werden beispielsweise Maschinen in der Produktion mit Sensoren oder Produkte und Fertigungseinheiten mit Chips ausgestattet. Darüber lassen sich zunächst Prozesse optimieren, aber auch Daten über die Produktion insgesamt erzeugen. Je nach Interessenslage und finanziellem Rahmen einer Big-Data-Strategie können externe Daten auch hinzugekauft werden. Dabei handelt es sich in der Regel um Daten, die Kunden und ihre Interessen und Wünsche betreffen.

2. Transformation und Aggregation

Auf diese Weise entsteht eine große Ansammlung von Daten – ein Data-Lake. In diesem “Daten-See” befinden sich Daten in strukturierter, unstrukturierter oder semistrukturieter Form vor. Zur weiteren Verarbeitung müssen die Daten deswegen auf ihre Qualität und Relevanz hin geprüft, transformiert und für die Analyse vor- und aufbereitet werden. Die Standardisierung von Daten ist ein ressourcenintensiver Prozess, bei dem einerseits die Gefahr besteht, die Aussagekraft der Daten zu verfälschen und andererseits wenige Automatisierungs-Tools bereitstehen, die die Arbeit erleichtern. Die Aggregation von Daten – der Vorgang bei dem Daten gruppiert und mit Metadaten versehen werden – nimmt bereits einen Teil der Interpretation vorweg.

3. Datenanalyse

Bei der eigentlichen Datenanalyse geht es um die Kunst der Interpretation der Daten. Die Korrelationen von Auswertungen können Lücken und Fehler in Abläufen und Prozessen aufzeigen. Historische Daten erlauben des Weiteren Aussagen über Entwicklungen in der Vergangenheit. Der Bereich der Predictive Analytics versucht aus diesen Zusammenhängen in Kombination mit Trendanalysen zukünftige Entwicklungen vorherzusagen. Die Datenanalysen schaffen damit die Grundlage für in die Zukunft weisende Entscheidungen und minimieren das Risiko von Fehlinvestitionen.

4. Visualisierung

Die Visualisierung von Daten ist weit mehr als eine bloße Illustration der Datenanalysen. In den Grafiken liegt vielmehr der Schlüssel zum Verständnis der in den Daten enthaltenen Informationen. Da sie an der Scharnierstelle zwischen IT und anderen Abteilungen und Verantwortungsbereichen stehen, kommt ihnen eine bedeutende Stellung zu. Nur wenn Analysen auf eine verständliche Weise zur Darstellung kommen, können die Erkenntnisse aus den Daten wirksam werden. Visualisierungen schaffen eine Vertraunsbasis, dass eindeutige, nachvollziehbare und belastbare Fakten das Ergebnis der Untersuchungen sind.

5. Distribution

Die Distribution der Ergebnisse von Big-Data-Analysen ist nicht nur ein Vorgang innerhalb eines Unternehmens, bei dem die Entscheidungsträger mit Wissen versorgt werden. Distribution bedeutet auch die Weitergabe von Informationen an Kunden oder das Angebot von Daten zur weiterführenden Nutzung. Diese können sowohl im Bereich Forschung und Wissenschaft als auch der gewinnbringenden Vermarktung liegen.

Big Data und die nötige Unterscheidung von Datenschutz und Schutz der Daten

Der Begriff Datenschutz ist spätestens mit der wertsteigernden Nutzung von Big Data zweideutig geworden. Im gängigen Sprachgebrauch meint ‘Datenschutz’ vor allem den Aspekt des Schutzes der personenbezogenen Daten. Datenschutz bedeutet heute aber für Unternehmen sowie für private bzw. öffentliche Organisationen vor allem den Schutz der eigenen Daten vor fremden Zugriff. Für datengetriebene Unternehmen bedeutet Betriebsspionage im schlimmsten Fall ein Totalverlust.

[selectivetweet]#BigData Einmaleins: In fünf Schritten von den Rohdaten zur Erkenntnis.[/selectivetweet]

Sichere Systemarchitekturen sind daher neben der Bereitschaft, Daten erkenntnis- und gewinnbringend zu nutzen, die Grundvoraussetzung.

Von den Rohdaten zur Erkenntnis: Die 5 Eckpunkte einer erfolgreichen Big-Data-Strategie