Im Schatten der Erfolgsgeschichte von Apache Hadoop wurde fünf Jahre lang am Framework Spark entwickelt, vier Jahre davon ebenfalls als Open-Source-Projekt. Seit einem Jahr ist nun Apache Spark auf dem Markt und macht Hadoop Konkurrenz. Zwar vollbrachte Hadoop das kleine Wunder, den Einsatz von Big Data wirtschaftlich zu gestalten, ein Alleskönner ist das freie Framework aber nicht. Einer der Hauptkritikpunkte an Hadoop war, nicht für die Echtzeitdatennalyse zu taugen. In diese Lücke springt Apache Spark ein, das bis zu 100 mal schneller sein soll.
Im Mai 2014 wurde die für Apache Frameworks wichtige Version 1.0.0 veröffentlicht. Seitdem ist der Erfolg von Apache Spark nicht mehr zu stoppen: In einer nicht-repräsentativen Umfrage gaben 65% der über 2000 befragten Unternehmen an, Spark entweder bereits zu nutzen, den Einsatz gerade prüfen oder bereits konkret für 2015 planen. Großkonzerne wie Alibaba, IBM oder die NASA setzen Spark bereits erfolgreich ein.
Die Gemeinsamkeiten von Hadoop und Spark
Wie Hadoop ist auch Spark ein frei verfügbares Framework von Apache, das einfach von der Spark Homepage geladen werden kann. Einzelne Anwendungslösungen werden auf dieses Rahmengerüst aufgesetzt. Wie Hadoop erfordert auch Apache Spark keine besondere Hardware, sondern verspricht Superleistung mit normalem Equipment.
Lese auch:
Dieser Aspekt ist für die Wirtschaftlichkeit entscheidend. In gewisser Weise baut Spark auf dem Prinzip von Hadoop auf: Um Spark zu betreiben wird ein Hadoop-Cluster benötigt, sprich: ein großer Verbund sicherer Netzwerk-Rechner.
Das kann Apache Spark besser
Der Erfolg von Hadoop basiert zu einem großen Teil auf dem Map-Reduce-Verfahren – dem Algorithmus, der auch dem Suchdienst von Google zugrunde liegt. Apache Spark setzt im Gegensatz dazu ganz auf In-Memory-Datenverarbeitung. Dabei werden die zu analysierenden Daten direkt im Arbeitsspeicher der Cluster-Knoten gespeichert und verarbeitet. Dieses Verfahren verschafft enorme Geschwindigkeitsvorteile gegenüber konventionellen Systemen, bei denen Daten zunächst vom Festspeicher geladen werden müssen. Erst wenn die Datenmengen zu groß werden, lagert auch Spark diese auf die Festplatten aus.
Ein weiterer Vorteil von Apache Spark ist die Fähigkeit, mit einer Vielzahl unterschiedlicher Datenquellen zu arbeiten. Neben Daten aus dem Hadoop Distributed File System (HDFS) können Daten aus relationalen Datenbanken wie Hive und NoSQL-Datenbanken verarbeitet werden.
Spark kann darüber hinaus weitaus komplexere Aufgaben bearbeiten als Hadoop. Der Map-Reduce-Algorithmus von Hadoop ist darauf ausgelegt, ein Problem in Einzelteile zu zerlegen, auf mehrere Server verteilt parallel zu bearbeiten und die Ergebnisse wieder zusammenzuführen. Im Vergleich dazu setzten die Entwickler von Apache Spark auf Machine-Learning. Seit dem Release 1.3 im Februar 2015 ist die Bibliothek MLIib (Machine Learning Library) enthalten. Diese Sammlung von intelligenten Algorithmen erlauben es beispielsweise Spotify, den Musikgeschmack seiner User nach nur drei Klicks vorherzusagen.
Lese auch:
Um den Sieg nach Punkten abzuschließen, trumpft Spark schließlich noch beim Thema Skalierbarkeit. Während bei Hadoop mit kleinen Datenmengen nicht zurecht kommt, lassen sich mit Spark sowohl Daten im Bereich Megabyte als auch im Petabyte-Bereich verarbeiten.
Ist das Ende von Hadoop in Sicht?
Mit all diesen Vorteilen bringt Apache Spark Big-Data-Anwendungen in neue Dimensionen. Mit Echtzeitdatenanalysen, der Möglichkeit unterschiedlichste Datenformate und -quellen auswerten zu können sowie der Fähigkeit, komplexe Aufgaben zu lösen stellt das Framework eine echte Konkurrenz zu Hadoop dar.
[umfrage id=“1333″]
Große Softwareunternehmen wie Hortonworks, die bislang auf Hadoop gesetzt haben, setzen nun bereits vielfach auf Spark. Dies könnten möglicherweise die ersten Anzeichen für das frühe Ende von Hadoops Erfolgsgeschichte sein. In jedem Fall stößt Apache Spark in Bereiche vor, die für Hadoop unerreichbar sind.
[selectivetweet float=“left“]“Das Bessere ist der Feind des Guten” (Voltaire) – #Hadoop bekommt Konkurrenz durch #Spark.[/selectivetweet]
Nicht nur deswegen halten Experten Spark für einen aussichtsreichen Kandidaten, die vereinheitlichende Big-Data-Technologie zu werden.