Konferenz für Big Data,
Data Science und Machine Learning
Heidelberg, Print Media Academy, 26.-29. September 2017

Blueprint einer Kappa-Architektur: Big Data wird Big Fast Data

Die Big-Data-Anwendungsfälle fordern zunehmend eine möglichst zeitnahe Bearbeitung und Auswertung der anfallenden fachlichen und technischen Daten. Die Latenz ist, zusätzlich zu den bestehenden, eine weitere Anforderungsdimension geworden. Dieser Aspekt erfordert zum Teil andersartige Architekturansätze und eine neu durchdachte Interpretation von datenbezogenen Prozessschritten und Systemkomponenten.

Die bisherigen Ansätze, um diese Anforderungen anzugehen, mündeten meistens in Varianten von Lambda-Architekturen. Diese weisen aber einige inhärente Schwachpunkte auf und können dementsprechend nicht als Basis für eine zukunftsorientierte Streaming-Data-Plattform fungieren. Die Kappa-Architektur stellt einen Ansatz für eine generische, konsequent auf Streaming ausgerichtete Architektur von beherrschbarer Komplexität dar.

Im Vortrag wird vorgestellt, wie eine gewachsene fachliche Lambda-Architektur aus der Praxis in eine Kappa-Architektur auf Basis einer Streaming Data Platform umgestellt werden kann. Zur Sprache werden ausschließlich Open-Source-Technologien kommen (u.a. Apache Kafka, Confluent Platform, Apache Flink, Elasticsearch, Hadoop-Ökosystem).

Vorkenntnisse
Von dem Vortrag profitiert man am meisten, wenn man bereits Vorwissen und Erfahrung aus der Welt der Big-Data-Technologien und des Hadoop-Ökosystems mitbringt. Die wichtigen Ideen und Lösungsansätze von Stream Processing werden anhand der vorgestellten Architektur und deren Implementierung verdeutlicht.

Lernziele
Der Vortrag wird aufzeigen, welche Herausforderungen die Echtzeitverarbeitung von großen Datenmengen stellt und wie man ihnen mit einer Kappa-Architektur, basierend auf einer Streaming-Data-Plattform, begegnen kann.

// Manfred Weber Manfred Weber

ist Systemarchitekt bei 1&1 Mail & Media Development & Technology im Bereich Big Data Technology. Sein besonderes Interesse gilt den modularen Big-Data-Architekturen und den Streaming-Technologien.


l>