Die meisten Big Data-Projekte benötigen irgendwann Werkzeuge zum Befüllen des Data Lakes und zur Aufbereitung der Daten für Auswertungszwecke. Spark ist eine mächtige Verarbeitungsmaschinerie, die das Grundgerüst für ein flexibles ETL-Werkzeug liefert. Durch einen leichtgewichtigen Überbau kann Spark als ETL-Werkzeug flexibel verwendet werden, so dass alle Transformationsschritte in einer rein deklarativen DSL spezifiziert werden, während der Unterbau selbst Scala nutzt.
Dieser Ansatz trennt zum einen den Programmfluss von der fachlichen Transformationslogik und ermöglicht zudem auch Mitarbeitern mit starkem fachlichen Fokus neue ETL-Jobs aufzusetzen. Das Werkzeug ist nunmehr Open Source.
Vorkenntnisse
Interesse an den Themen ETL und Spark im Kontext mit Data Lakes.
Lernziele
Es wird ein Ansatz dargestellt, der Spark als ETL-Werkzeug verwendet, durch die Spezifikation der Transformationen in YAML allerdings nicht von jedem Mitarbeiter Programmierkenntnisse mit Spark abverlangt.
// Kaya Kupferschmidt
arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data im Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, dem Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.