Datenverarbeitung/Big DataNews

MapR integriert Apache Spark in seine Hadoop-Distribution

MapR Technologies integriert in seine MapR-Distribution den kompletten Apache Spark-Technologiestack. Das In-Memory-Framework sorgt dafür, dass Programme im Speicher erheblich schneller laufen, vereinfacht das Schreiben von Anwendungen und ermöglicht die Echtzeitdatenanalyse. Darüber hinaus geht der Anbieter eine strategische Partnerschaft mit Databricks ein.

Unternehmen suchen beständig nach noch einfacheren und schnelleren Wegen, um wertvolle Informationen aus ihren großen Datenbeständen zu gewinnen. Mit dem Einsatz von Spark können sie sowohl Leistungsverbesserungen erzielen als auch die Entwicklerproduktivität steigern. Die von dem In-Memory-Framework Spark genutzte Pipelining-Technik sorgt für eine durchgängig bessere Anwendungsleistung. Bei vielen Applikationen spiegelt sich dies in einer fünf- bis hundertfach höheren Performance wider. Spark-Jobs lassen sich außerdem mit weniger als einem Fünftel der Anzahl an Codezeilen umsetzen. Eine einfache Programmierungsabstraktion ermöglicht Entwicklern Anwendungen zu erstellen, die verteilte Kollektionen von Datensätzen (Resilient Distributed Datasets oder RDDs) in späteren Operationen wiederverwenden. Darüber hinaus können sie die Anwendungen in mehreren Programmiersprachen einschließlich Java, Scala und Python schreiben und denselben Code mehrfach nutzen, zum Beispiel für die Batch-Verarbeitung, interaktive Datenabfragen oder das Stream-Processing.

Viele Unternehmen setzen Spark bereits heute produktiv in ihren MapR-Umgebungen ein. Die auf der Lösung basierten Anwendungen können dabei die Vorteile der für den geschäftlichen Einsatz entwickelten MapR-Distribution voll ausschöpfen. Hierzu zählen unter anderem eine hohe Verlässlichkeit und Leistung sowie die Möglichkeit, auf betriebliche Daten über die standardmäßig integrierte NFS-Schnittstelle direkt und in Echtzeit zuzugreifen.

Die parallel zur Integration von Spark in die MapR-Distribution geschlossene strategische Partnerschaft mit Databricks stellt sicher, dass Kunden sich rund um die Uhr auf einen umfassenden Support für alle Spark-Projekte verlassen können. Darüber arbeiten die beiden Unternehmen gemeinsam an einer schnellen Weiterentwicklung der Software und weiteren ergänzenden innovativen Neuerungen. Dies zahlt sich für MapR-Kunden und die Hadoop-Community sowohl mit der bevorstehenden Veröffentlichung von Apache Spark 1.0 als auch über die kommenden Jahre hinweg aus.

Mit der Integration des kompletten Spark-Technologiestacks einschließlich der dazugehörigen fünf weiteren Unterprojekte stimmt die MapR-Distribution nun das Zusammenspiel von mehr als 20 Apache Open-Source-Lösungen aufeinander ab. Damit eignet sie sich für vielfältige Anwendungszwecke, die von der Batch-Verarbeitung, interaktiven Datenabfragen und –analysen sowie dem Stream-Processing über die Erstellung von Grafiken zur Analyse und Verwaltung der mit Hadoop verarbeiteten unstrukturierten Daten bis hin zum maschinellen Lernen reichen. MapR ist laut Hersteller die einzige Distribution, die Apache Open-Source-Projekte im monatlichen Rhythmus veröffentlicht. Dies ermöglicht Kunden, in der Distribution enthaltene Komponenten zu aktualisieren, ohne einen kompletten Cluster-Upgrade durchzuführen. Innovative Open-Source-Projekte lassen sich schneller und mit geringerem Risiko, dass es zu Unterbrechungen der betrieblichen Leistung von Cluster-Diensten kommt, integrieren.

“Die Open-Source-Community entwickelt in rasantem Tempo herausragende technische Innovationen”, meint John Schroeder, CEO und Mitbegründer von MapR Technologies. “MapR ist die derzeit offenste Distribution am Markt und ermöglicht unseren Kunden, die für ihren Anwendungszweck am besten geeignete Lösung mit der größten Bandbreite an Rechen-Frameworks und Bibliotheken zu wählen. Die Investition in die MapR-Distribution sorgt daher für Zukunftssicherheit.”

Weitere Informationen: www.mapr.com

[subscribe2]