Konferenz für Big Data,
Data Science und Machine Learning
Heidelberg, Print Media Academy, 26.-29. September 2017

Schnelles Big-Data-Deyploment durch Container in der Cloud

Der Vortrag zeigt, wie komplexe und datenlastige Big-Data-Technolgien instantalliert und bedarfsorientiert deployt werden können. Dafür werden diese mit Docker containerisiert und mithilfe von Kubernetes und Helm in der Cloud oder auf On-Premises-Hardware ausgeführt. Dabei erfolgt der Bau der Containerimages sowie das Deployment automatisiert mittels GitLab CI. Auf diese Weise können aktuelle Releases risikofrei erprobt und das Zusammenspiel einzelner Komponenten in größeren Architekturen evaluiert werden.

Zur Demonstration werden wir ein solches Deployment für einen Zeppelin-Spark-Kafka-Stack in der Google Cloud zeigen und auf die Herausforderungen von Speicher- und Zustandshaltung eingehen.

Vorkenntnisse
* Allgemeines Verständnis für gängige Big-Data Technologien (Spark, Kafka)
* Grundkenntnisse von Docker

Lernziele
* Verständnis zur Funktionsweise von Kubernetes und dem automatisierten Deployment von Containern
* Herausforderungen und Lösungen beim Deployment von Big-Data-Komponenten in Container-Umgebungen

// Hans-Peter Zorn Hans-Peter Zorn

ist Big Data Scientist bei der inovex GmbH. Schwerpunkte sind Big-Data-Archtitekturen, Hadoop Security, Maschinelles Lernen und datengetriebene Produkte. Zuvor beschäftigte er sich am UKP Lab der TU Darmstadt mit der Analyse großer Textmengen mit Hadoop.


// Nico Kreiling Nico Kreiling

ist ebenfalls Big Data Scientist bei der inovex GmbH. Schwerpunkte sind Big-Data-Technologien, Microservices, Docker und Kubernetes. Während seiner Masterarbeit vor zwei Jahren begann er damit, Big-Data-Technologien in Containern zu verwenden. Heute nutzt er dieses Wissen täglich im Projektgeschäft.

l>