Auf gut besuchten Internetseiten hinterlassen die Besucher zigtausende Spuren pro Sekunde. Es nützt dem Geschäft, wenn man diese Spuren schnell interpretieren und schnell auf das Benutzerverhalten reagieren kann. Wir präsentieren im Vortrag eine Softwarearchitektur auf Basis von Apache Spark. Mit dieser Architektur sind wir in einem realen Projekt erfolgreich produktiv gegangen. Dabei werden neben Spark Core auch Spark Streaming und Spark SQL eingesetzt sowie Kafka als Postbote und Parquet als Ablageformat. Wir erläutern unsere Entscheidungen und Erfahrungen beim Aufbau dieser Architektur und bringen ein paar Zahlen mit, die ihre Leistungsfähigkeit unterstreichen.
Skills
Die Besucher sollten mit den Grundlagen von Apache Spark vertraut sein und die elementaren KPIs der Web-Analyse (z.B. Unique Users) kennen. Wir liefern zu beidem aber auch im Vortrag eine knappe Einführung.
Lernziele
Der Besucher versteht die Herausforderungen beim Aufbau einer Softwarearchitektur zur Clickstream-Analyse auf High-Traffic Webseiten und wie diese mit dem Apache Spark Ökosystem angegangen werden können.
// Referenten
// Andreas Zitzelsberger
ist Chef-Technologe bei QAware und beschäftigt sich aktuell insbesondere mit Big-Data-Architekturen und hochsicheren Systemen. Er hat das Praxisprojekt, das im Vortrag vorgestellt wird, als verantwortlicher Architekt begleitet und dabei gefühlt alle Ecken, Kanten aber auch Perlen im Spark-Ökosystem kennengelernt.
//
Josef Adersberger
@adersberger
hat nach dem Studium der Informatik Anfang 2005 QAware mitgegründet. Er hält Vorlesungen über Software Engineering an den Hochschulen in Rosenheim und München und ist Gastwissenschaftler an der Universität Erlangen-Nürnberg. Er verantwortet als Geschäftsführer das Software Engineering bei QAware.