Tools und Methoden für
Big, Smart und Secure Data
Karlsruhe, IHK, 5. - 7. Oktober 2016

Bewirtschaftung von Data Lakes in der Praxis

Unternehmen sammeln ihre Geschäftsdaten zunehmend in Hadoop-basierten Data Lakes/Hubs, um Analysten eine umfassende Sicht auf die Geschäftsprozesse zu geben und schnell neue Datenprodukte und -dienste umsetzen zu können. Bei der Anbindung und Konsolidierung der unterschiedlichen Daten steht der Architekt vor mehreren Herausforderungen: schnelle Erschließung neuer Datenquellen, automatisiertes Testen, Modellierung von Abhängigkeiten zwischen Tabellen (Data Lineage) und die Behandlung spät eintreffender Daten.

Wir zeigen den Aufbau solcher Datenplattformen und skizzieren praktische Umsetzungen mit den Open-Source-Werkzeugen Schedoscope (Otto Group) und Airflow (Airbnb).

Skills
Interesse an Big-Data-Architekturen, grober Überblick über das Hadoop-Ökosystem. Gegebenenfalls eigene schmerzhafte Erfahrungen mit Oozie.

Lernziele
Der Aufbau einer Big-Data-Platform endet nicht mit der Installation von Hadoop: Die organisatorischen und technischen Prozesse sind komplex und können durch die Wahl geeigneter technischer Werkzeuge unterstützt werden.

// Referenten

// Hans-Peter Zorn Hans-Peter Zorn

ist Big Data Scientist bei inovex GmbH. Schwerpunkte sind Big-Data-Archtitekturen, Hadoop Security, Maschinelles Lernen und datengetriebene Produkte. Zuvor beschäftigte er sich am UKP Lab der TU Darmstadt mit der Analyse großer Textmengen mit Hadoop. Er war an der Entwicklung des Schedoscope-Frameworks beteiligt.


// Dominik Benz Dominik Benz

arbeitet als Big Data Engineer bei inovex GmbH. Er beschäftigte sich hierbei unter anderem mit testgetriebener Big-Data-Anwendungsentwicklung, Implementierung von ETL-Prozessen auf Basis von Hadoop-Technologien (Hive, HBase) sowie deren Integration in klassische Business-Intelligence-Umgebungen. Er implementierte das Testframework in Schedoscope.


l>