Superschnelle Datenintegration: Pentaho integriert Apache Spark

Gute Neuigkeiten für die Anwender der Big Data-Tools Pentaho und Apache Spark: Pentaho Data Integration (PDI) verfügt zukünftig über eine native Integration von Spark. Das beschleunigt Datenintegrationsprozesse für Big Data-Analysen enorm.

Der Big Data-Hersteller Pentaho Corporation hat kürzlich die native Integration von Pentaho Data Integration (PDI) mit Apache Spark bekannt gegeben. Damit können Datenintegrations-Jobs mit Spark direkt aus Pentaho gesteuert werden. Die Integration hat die Big Data-Szene aufhorchen lassen, denn dadurch lässt sich die Produktivität von Daten-Projekten stark steigern, Wartungskosten reduzieren und die für Spark erforderlichen Mitarbeiterqualifikationen deutlich senken.

Spark-Framework ergänzt PDI

Apache Spark ist ein Cluster-Computing-Framework, das entwickelt wurde, um anstelle von Hadoop MapReduce auf der Oberseite des Hadoop Distributed File-Systems (HDFS) zu laufen. Bei der Entwicklung wurde besonderer Wert auf Schnelligkeit, Benutzerfreundlichkeit und maschinelles Lernen geachtet. PDI ist im Wesentlichen eine tragbare Datenaufbereitungsmaschine für ETL, die als Stand-Alone-Pentaho-Cluster oder in einem Hadoop-Cluster über MapReduce oder Yarn eingesetzt werden kann. Mit Spark wird PDI um ein neues Framework ergänzt, durch das Big Data ETL-Prozesse noch schneller durchgeführt werden können. Anwender können ETL-Jobs mit Hilfe der grafischen Design-Umgebung im PDI entwickeln, testen und optimieren und später auf Spark laufen lassen. Da beide Lösungen auf Open Source basieren, war es für Pentaho einfach, das ebenfalls quelloffene Spark-Projekt zu integrieren.

Was bringt die Integration Big Data-Usern?

Durch die Unterstützung für In Memory Cluster-Computing kann mit Spark eine Leistung erreicht werden, welche die von Hadoop MapReduce deutlich übersteigt. Dadurch sind Analysen in Echtzeit möglich. Das bedeutet, dass Anwender keine separate Technologie mehr benötigen, um Realtime Analytics durchzuführen. Darüber hinaus umfassen die großen Arbeitslasten solcher Auswertungen typischerweise unterschiedliche Datentypen, die jeweils auf bestimmte Art und Weise analysiert werden müssen. Das ist eine weitere Stärke von Spark.

Einsatzbereiche für Spark und Pentaho

Pentaho arbeitet gerade daran, Beispiel-Szenarien für den Einsatz von Spark zu entwickeln. Damit möchte das Unternehmen die Anwender dabei unterstützen, die richtigen Einsatzbereiche für Spark und Pentaho zu finden und Big Data-Projekte einfacher umzusetzen. Dazu gehören unter anderem direkt auf Spark SQL ausgeführte Abfragen und parallel durchgeführte Spark-Abfragen (Spark Parallel Execution).

[selectivetweet]#Pentaho integriert #ApacheSpark – das beschleunigt Prozesse für #BigData-Analysen enorm.[/selectivetweet]

Der Big Data-Markt befindet sich in einem kontinuierlichen Wandel. Spark gehört zu den Projekten in diesem Bereich, an denen am aktivsten gearbeitet und mitentwickelt wurde. Die Lösung besitzt daher strategische Bedeutung für einen Big Data -Anbieter wie Pentaho. Durch den Open Source-Ansatz können neue Technologien einfach integriert werden und bietet Kunden aktuelle Innovationen – ein enormer Vorteil in einem so dynamischen Markt wie dem für Big Data-Anwendungen.