Big Data: Die Potentiale von Daten verstehen, Projekte daraus verwirklichen und seine Daten entfalten.

Das Zeitalter der unglaublich intelligenten Maschinen steht vor uns. 2008 leistete das Berliner Big-Data-StartUp “The unbelievable Mashine Company” – kurz “*um” – noch Pionierarbeit auf dem Gebiet der Data Science und Web Operations. *um war zudem einer der ersten Anbieter von Cloud-Computing in Deutschland. Seither bietet die Firma maßgeschneiderte Speziallösungen rund um das Hadoop-Ökosystem an. Maschinen sollen unter anderem mitfilfe von Machine-Learning-Algorithmen wortwörtlich unglaubliches vollbringen. Wir haben uns mit Klaas Bollhöfer, dem Chief Data Scientist, unterhalten.

Herr Bollhoefer, was genau ist so unglaublich an der “unbelievable Machine” und woher kommt Ihr ungewöhnlicher Firmenname?

The unbelievable Machine Company aus Berlin ist ein Full-Service Anbieter für Cloud Computing und Big Data. Wir sind herstellerunabhängig und realisieren maßgeschneiderte Lösungen „von der Idee bis zum Kabel“. Das gesagt – unsere Experten sind nicht nur in der Beratung oder der Analyse von Daten, aka Data Science, stark, sondern auch Experten für Software-Entwicklung („on scale“), DevOps und Data Center Operations. Der Legende nach wurde unser Firmenname durch einen Bandnamen-Generator im Internet generiert. Und wie immer bei Legenden – es ist etwas Wahres daran…

Was zeichnet die Lösungen von “The unbelievable Machine Company” besonders aus?

Wir haben stets den Kunden mit seinen individuellen Anforderungen im Fokus und realisieren keine Lösungen „von der Stange“. Egal ob High-Performance-Anforderungen in Richtung Infrastruktur, knifflige Machine-Learning-Aufgaben oder perfekt sitzende digitale Business Cases – herzlich willkommen! Darüber hinaus ticken wir anders als der Wald- und Wiesen-IT-Dienstleister. Wir leben was wir tun, denken als Community und sehen das gesamte Internet als Betriebssystem, für das wir unsere Lösungen kreieren.

Können Sie uns anhand eines Beispiels den Vorzug dieser Art der Herangehensweise verdeutlichen?

Der Erfolg stellt sich immer da ein, wo etablierte, paketierte und zu strikt gedachte Lösungen an Grenzen stoßen und wo diese mit neuen Ansätzen, Expertenwissen und der Unterstützung von Algorithmen sowie Technologie verschoben werden.

Wir haben beispielsweise mal einen Recommender entwickelt, der nicht aus dem Portfolio des Onlineshops und dessen Nutzung selbst gespeist wird, sondern aus Assoziationsnetzen aus dem Web/Social Web. Der Shop war noch jung am Markt, die bestehende Datenbasis zu schwach für relevante Empfehlungsmuster. Bonuspunkt: die aus dem Web extrahierten „non-trivialen“ Beziehungsmuster rund um Produkte waren auch im weiteren Verlauf modell-prägende sogenannte Features für eine neuartige Form Empfehlungslogik.

Wie kann Big Data, Machine Learning und Cloud-Computing uns als Gesellschaft helfen? Wo sehen Sie das derzeit größte und noch ungenutzte Potenzial von Big Data?

Technik kann immer da helfen, wo intelligente Menschen intelligente Fragen stellen und den Status quo herausfordern. Da unterscheidet sich Big Data nicht von anderen Entwicklungen und Technologien der letzten 20, 30, 50 Jahre. Großes Potenzial sehe ich dort, wo Technologie die reine Technikperspektive verlässt und multidisziplinär und/oder fachfremd angewandt wird. Neue Analyseverfahren auf Datenbeständen der Soziologie, Medizin, Geowissenschaften oder auch in beliebiger Kombination und Korrelation dieser birgt noch ungenutzte, bis dato unbekannte Potenziale.

Was sind für Sie die bislang faszinierendsten Beispiele, was durch KI oder Machine Learning erreichbar ist?

Sicherlich die aktuellen Entwicklungen und Ergebnisse im Bereich Deep Learning. Skype wird in die Lage versetzt, in Echtzeit synchron zwischen zwei Sprachen zu übersetzen, Google kann automatisiert Bilder erkennen und annotieren, Algorithmen sind in der Lage, selbstlernend Computerspiele zu beherrschen. Und wir stehen noch am Anfang der durch die massive Rechenpower und skalierbare Architekturen befeuerten Entwicklung im Bereich der neuronalen Netze. Das hat nicht im Entferntesten was mit menschlicher Intelligenz oder der Funktionsweise unseres Gehirns zu tun, zeigt aber in beeindruckender Weise, was Algorithmen, Automatisierung und Moores Law in Kombination für unschätzbare (im doppelten Sinn des Wortes) Möglichkeiten schaffen.

Wir selbst sind aktuell in erste Projekte im Kontext von Industrie 4.0 eingebunden, die Deep Learning und automatisierte Bilderkennung in neuartige Lösungen verpacken.

Wie weit entfernt sind wir aus Ihrer Perspektive von der Smart Factory und der Industrie 4.0?

Aus dem Blickwinkel von Big Data stehen wir gerade am Anfang und es herrscht so etwas wie Aufbruchstimmung in der Industrie. Die Verarbeitung, Analyse und Visualisierung maschinengenerierter Daten und die Nutzung in Bereichen wie Prozessoptimierung, Energie-Effizienz oder Condition Monitoring sind naheliegende erste Cases und werden sicherlich eine Starthilfe von Industrie 4.0 darstellen. Betrachtet man das Thema aber in all seinen Facetten und der damit verbundenen Größenordnung des Unterfangens sind wir sicherlich noch weit davon entfernt, von so etwas wie Distributed Smart Production oder ähnlichem zu sprechen. Auch die letzte industrielle Revolution ist nicht über Nacht gestartet und vollendet worden.

Wie intelligent können Maschinen werden und bedrohen sie in absehbarer Zukunft viele Arbeitsplätze?

Das ist das Schreckensszenario, das derzeit entworfen wird und selbst von (so sagt man) Experten wie Stephen Hawking, Elon Musk und anderen stilsicher heraufbeschworen wird. Ganz ehrlich – es liegt nicht zuletzt an uns, wie, wofür und in welcher Form wir „intelligente“ Maschinen und automatisierte Systeme nutzen und auch nutzen wollen. Daher sind für mich auch die Entwicklungen, die ein wenig jenseits der Debatte um künstliche Intelligenz massiv fortschreiten, wesentlich bezeichnender und kritischer.

Ich spreche davon, dass immer mehr Automatismen, Logiken und Programme die Prozesse regeln, in denen menschliche/manuelle Tätigkeiten involviert sind, beispielsweise in den Warenlagern großer Online-Retailer. Diese Jobs und perspektivisch zahlreiche weitere „regulier- und steuerbare“ Tätigkeiten verschieben sich „below the API“ und sind damit de facto möglicher Bestandteil zukünftiger Software-Lösungen. Auch bedrohlich: diese Softwarelösungen sind eben nicht intelligent, sondern de facto dumm, regelbasiert und auf bestimmte Kenngrößen starr optimiert.

Werden im Fahrwasser der neuen Technologien nicht auch viele neue Berufe entstehen – insbesondere im Zusammenhang mit Big Data?

Ja, es werden nicht nur Berufe verschwinden, sondern de facto auch neue entstehen. Spezifisch im Bereich Data Science, Engineering und Operations sind wir im Augenblick noch in der Phase, wo mehrheitlich Generalisten in den jeweiligen Rollen agieren. Hier ist perspektivisch eine weitere Spezialisierung, wie es allgemein in der IT- und Digitalbranche zu beobachten ist, zu erwarten. Es ist an der Zeit in Schul- und Hochschulbildung die dafür notwendigen Vorbereitungen zu treffen.

In welchen Unternehmensbereichen steckten schon jetzt Möglichkeiten, die noch nicht genutzt werden?

Das ist so konkret schwer zu beantworten, da de facto alle Bereiche mehr und mehr „data-driven“ werden beziehungsweise werden können. Vorreiter sind sicherlich Bereiche wie Marketing und Vertrieb, Logistik und Supply Chain Management oder Produktmanagement/-entwicklung und R&D.

Welche Rolle spielt Big Data in Ihrem eigenen Unternehmen und auf welche Technologien setzten Sie – nutzen Sie Lösungen aus dem Apache-Park wie Hadoop oder Spark?

Als Service-Provider, der aktuell auch mehr als 1000 qm Rechenzentrumsfläche für Kunden betreibt, setzen wir natürlich auch selbst auf Big-Data-Technologien und Analysen. Daten haben wir reichlich!

Wir haben zahlreiche Technologie-Stacks für unsere Kunden im Einsatz und ein breites Spektrum an Expertise und Erfahrung. Schwerpunkt liegt sicherlich auf Open Source Technologien. Hadoop und Spark sind häufig integraler Bestandteil zeitgemäßer Big Data Architekturen, aber nicht ausschließlich. Auch zahlreiche weitere Komponenten des Hadoop Ökosystems sind tägliche Begleiter, wie beispielsweise Hive, Impala, Oozie, Flume & Co., im Bereich Realtime Streaming/Analytics setzen wir Kafka, Spark Streaming oder auch Storm ein, im Bereich Operational Intelligence Technologien wie Splunk oder ELK-Stack (ElasticSearch, Logstash, Kibana). Die Liste könnte beliebig fortgesetzt werden und verändert sich quasi monatlich.

Zeichnet sich bereits jetzt ab, welche Technologie sich durchsetzen wird?

Was sich ein Stück weit am Markt abzeichnet ist, dass sich die ein oder andere Technologie/Komponente deutlicher etablieren konnte in der letzten Zeit und eine Art De-facto-Standard bilden (Stand heute). Dazu zählen Hadoop (hier in erster Linie das HDFS Filesystem), Spark als Application Framework oder YARN (perspektivisch auch Mesos) für das Ressourcenmanagement. Auch Python und/oder R als Programmiersprache in Richtung der Daten ist quasi gesetzt.

Die großen Datenmengen von Big Data versuchen die Realität abzubilden. Wie exakt lässt sich bereits ein Bild von der Welt durch die Daten zeichnen? Ermöglichen die Daten einen Blick in die Zukunft?

Daten spiegeln nur ein Stück weit die Realität, in der sie produziert wurden, aber sie sind natürlich nie ein komplettes, geschweige denn objektives Abbild dieser. Ergo fehlen auch immer Daten, um dieses Bild zu vervollständigen. Lässt sich damit die Zukunft vorhersagen? Ja, in Teilen (sehr geringen), aber das ist zu abstrakt und globalgalaktisch von der Fragestellung her.

Wir können aus Daten, die wir gesammelt haben und/oder aktuell sammeln, Muster extrahieren, diese für Vorhersagen in Richtung der zukünftigen Entwicklung dieser Muster nutzen und entsprechende Modelle entwickeln.

Wenn es um personenbezogene Daten geht, herrscht die Meinung vor, dass uns Daten schon sehr genau als Person abbilden. Deswegen werden Big Data und die Entwicklungen, die mit der Digitalisierung einhergehen, oft kritisch beurteilt. Was entgegnen Sie so einer Kritik?

Die Sicherheit der Daten ist ein entscheidender Aspekt und nicht hoch genug zu bewerten. Aktuelle Entwicklungen im Bereich der Big-Data-Technologien nehmen dies auch sehr ernst. Viele Lösungen sind bereits entwickelt und werden weiter verfeinert. Allgemein lässt sich aber sagen, dass es bei Big Data eben nicht um einzelne Datensätze geht (per definitionem), sondern um Datenmengen und die Muster, Rhythmen und Relationen, die in ihnen stecken.

Natürlich können wir damit wieder Klassifizierungen vornehmen und Merkmale an einzelne Datensätze zurückschreiben, die de facto auch personenbezogenen Daten betreffen, erweitern und damit faktisch auch manipulieren können. Der zentrale Aspekt bei der Sache ist jedoch: das ist in den meisten Fällen weder sinnvoll, noch nötig, geschweige denn gewünscht. Es liegt also nicht an Big Data oder der Digitalisierung oder was auch immer, sondern an den Menschen, die mit den Daten umgehen.

Was lässt sich tun, um die Akzeptanz von datengestützten Analysen, Datenwissenschaft und maschineller Intelligenz weiter zu steigern?

Lehren, lernen, verstehen. Solange wir von etwas Unbekanntem, Undefinierbaren, Unheimlichen sprechen und nicht verstehen, was konkret hinter Begriffen wie Big Data, Künstlicher Intelligenz, dem Internet der Dinge etc. steht, ist es schwierig, von so etwas wie Akzeptanz zu reden. Wir müssen in die Getriebe der Black Boxes schauen, die Grenzen der Algorithmen kennen (lernen) und das Zusammenspiel komplexer Systeme durchleuchten und hinterfragen. Das war selbst bei Videorecordern in den 80ern nicht anders…

Hat die Datenwissenschaft und Big Data das Potenzial, unser Leben oder einzelne Bereiche davon gravierend zu verbessern? Wie viel Veränderungen stehen uns noch bevor bzw. können wir uns jetzt schon vorstellen, welche Veränderungen Big Data und KI überhaupt noch bringen werden?

Technologischer Fortschritt hat schon immer unser Leben verändert und sicherlich in der Mehrheit auch verbessert. So wird auch Big Data bzw. all das, für das Big Data steht, seinen Beitrag dazu leisten. Großes Potenzial – bis dato noch weitestgehend unausgelotet – steckt nicht zuletzt auch in Bereichen wie Medizin oder Wissenschaft.

Wird sich dadurch etwas verändern?

Ja, denn wir reden von Fortschritt! Können wir uns vorstellen, was diese Veränderungen in Zukunft alles bewirken werden? Nein, denn auch das ist Fortschritt! In diesem Fall höchstwahrscheinlich sogar exponentiell. Es bleibt somit sehr spannend!

[selectivetweet float=“left“]Klaas Bollhoefer von @unbelievable_m spricht über #BigData, #KI und #DataScience.[/selectivetweet]

Wir bedanken uns ganz herzlich für das Gespräch.