Big-Data: Hadoop und Spark mit SAP HANA Vora nutzen

Redaktion IT-Onlinemagazin 26. Januar 2016

In Big-Data-Szenarien fallen – wie der Name schon sagt – große Datenmengen an, oft auch dezentral. Ein Quasi-Standard für die kostengünstige Verwaltung von Massendaten und deren schnelle Verfügbarkeit sind Hadoop und das Spark Framework. Kombiniert man Hadoop mit SAP HANA, das sich unter anderem durch seine Analysemöglichkeiten in Echtzeit auszeichnet, lassen sich die Unternehmensdaten mit den in Hadoop gespeicherten Informationen verbinden und gemeinsam auswerten.

Außerdem dürfte man technologisch für zukünftige Anforderungen gut gerüstet sein. „SAP HANA Vora“ nennt sich die In-Memory Engine für das Apache Spark-Framework, das damit SAP HANA in Richtung Apache Hadoop öffnet.

Vorteile von SAP HANA und Hadoop verbinden

Apache Hadoop ist eine Big-Data Technologie, die mit seinem Technologie-Framework den Vorteil beim Speichern von Massendaten zu geringen Storage-Kosten hat, da konventionelle Hardware genutzt werden kann. Darüber hinaus sind Hadoop-Cluster von Haus aus parallelisiert, redundant und einfach skalierbar.

Ein wichtiger Vorteil von SAP HANA gegenüber konventionellen Datenbanken ist seine In-Memory Fähigkeit, die Geschwindigkeitsvorteile beim Zugriff auf transaktionale Unternehmensdaten bietet. Die zu analysierenden Daten liegen vollständig im Hauptspeicher und können dadurch sehr schnell ausgewertet werden, was gerade bei der Deutung von Massendaten (Big-Data) wichtig ist, wenn man in Echtzeit Ergebnisse erwartet.

Dadurch ergänzen sich die Vorteile der schnellen Auswertungsmöglichkeiten und der kostengünstigen Ablage von Massendaten, wenn man beide Technologien kombiniert.

Big-Data Szenarien mit Hadoop und SAP HANA

Das verteilte Hadoop-Dateisystem HDFS eignet sich besonders für die Sammlung und Ablage strukturierter oder semistrukturierter Daten, wie Sensordaten, Netzwerkinformationen oder Maschinendaten und unstrukturierten Informationen, wie Dateiinhalte, Texte, Twitter-Feeds, Social-Media Daten, Audio-Inhalte oder Video-Informationen – auch dezentral.

Derartige Informationen lassen sich in Big-Data Szenarien, wie „Predictive Maintanance“, also der durch Maschinendaten indizierte, rechtzeitige Serviceeinsatz vor dem Ausfall von Anlagen, „Internet of Things (IoT)“, also die Auswertung von Sensordaten und Geräteinformationen, oder anderen Szenarien in Echtzeit mittels SAP HANA auswerten und mit internen Unternehmensinformationen verknüpfen, um dann gegebenenfalls Maßnahmen zu ergreifen.

Wozu benötigt man SAP HANA Vora?

Funktional betrachtet, ermöglicht SAP HANA Vora, die Nutzung von Hadoop Informationen aus den SAP-Applikationen heraus. Anwender benötigen keine technischen Kenntnisse, auch wenn die Daten in Hadoop-Clustern gespeichert werden. Technologisch soll die In-Memory Engine für Hadoop nach Herstellerangaben OLAP- und Drilldown-Analysen ermöglichen, Datenhierarchien nutzbar machen und den Datenaustausch zwischen SAP HANA und Apache Spark beschleunigen.