Der Vortrag zeigt, wie komplexe und datenlastige Big-Data-Technolgien instantalliert und bedarfsorientiert deployt werden können. Dafür werden diese mit Docker containerisiert und mithilfe von Kubernetes und Helm in der Cloud oder auf On-Premises-Hardware ausgeführt. Dabei erfolgt der Bau der Containerimages sowie das Deployment automatisiert mittels GitLab CI. Auf diese Weise können aktuelle Releases risikofrei erprobt und das Zusammenspiel einzelner Komponenten in größeren Architekturen evaluiert werden.
Zur Demonstration werden wir ein solches Deployment für einen Zeppelin-Spark-Kafka-Stack in der Google Cloud zeigen und auf die Herausforderungen von Speicher- und Zustandshaltung eingehen.
Vorkenntnisse
* Allgemeines Verständnis für gängige Big-Data Technologien (Spark, Kafka)
* Grundkenntnisse von Docker
Lernziele
* Verständnis zur Funktionsweise von Kubernetes und dem automatisierten Deployment von Containern
* Herausforderungen und Lösungen beim Deployment von Big-Data-Komponenten in Container-Umgebungen
//
Hans-Peter Zorn
@data_hpz
ist Big Data Scientist bei der inovex GmbH. Schwerpunkte sind Big-Data-Archtitekturen, Hadoop Security, Maschinelles Lernen und datengetriebene Produkte. Zuvor beschäftigte er sich am UKP Lab der TU Darmstadt mit der Analyse großer Textmengen mit Hadoop.
//
Nico Kreiling
@nicokreiling
ist ebenfalls Big Data Scientist bei der inovex GmbH. Schwerpunkte sind Big-Data-Technologien, Microservices, Docker und Kubernetes. Während seiner Masterarbeit vor zwei Jahren begann er damit, Big-Data-Technologien in Containern zu verwenden. Heute nutzt er dieses Wissen täglich im Projektgeschäft.