Bei dem vorliegenden Projekt handelt es sich um ein Analyse-Backend, das Messdaten auswertet. Das Backend führt Messungen verschiedener Systeme zusammen, um daraus Key Performance Indicators zu berechnen. Die Visualisierung der Ergebnisse erfolgt in einem BI-Tool.
Ziel des Projektes war das bestehende, RDBMS-basierte Backend durch ein auf Apache Hadoop basierendes System abzulösen. Dabei wurden die folgenden Technologien aus dem Hadoop-Ökosystem verwendet:
* Flume
* Spark
* MapReduce
* Hive/Impala
Der Referent berichtet über die Erfahrungen beim Umstieg und beschreibt die als Ergebnis des Projekts entstandene Architektur zum Sammeln, Aufbereiten und Analysieren der Messdaten. Als besondere Herausforderung hat sich die Aufbereitung und Analyse von zeitabhängigen Daten herausgestellt, dazu wurde eine hybride Methode entwickelt, die sowohl auf Map Reduce als auch auf Spark aufsetzt.
Skills
Der Vortrag richtet sich insbesondere an Ein- und Umsteiger in den Bereich Big Data/Apache Hadoop, die sich einen Überblick über die Herausforderungen bei Technologiewechsel anhand konkreter Erfahrungen bilden wollen. Die Besucher sollten ein grobes Verständnis des Hadoop-Ökosystems mitbringen.
Lernziele
Die Besucher sollen verstehen, wie die verschiedenen Techniken des Hadoop-Ökosystem eingesetzt werden können, um bestimmte Problemstellungen zu lösen. Anhand der dargestellten Erfahrungen sollten sie in die Lage versetzt werden, die Risiken und Herausforderungen bei einem Umstieg auf Apache Hadoop zu verstehen und dieses Wissen auf eigene Projekte anzuwenden.
// Referent
// Thorsten Greiner
ist bereits während seines Physikstudiums mit massiv parallelen Systemen in Berührung gekommen. Er arbeitet mit Java seit der Version 1.0 als Entwickler, Coach, Berater und Software-Architekt. Bei ConSol* ist er als Teamleiter Software Development für den Bereich Big Data verantwortlich.