Tools und Methoden für
Big, Smart und Fast Data
Karlsruhe, IHK, 29. September - 1. Oktober 2015

data2day 2015 » Programm »

Benchmarking Spark

Dank leistungsfähiger Hadoop-Distributionen wie Clouderas CDH5 und Hortonworks HDP ist es einfach geworden, ein komplettes Hadoop/Spark-Cluster in wenigen Stunden in der Cloud zu installieren. Schwieriger wird es jedoch, die optimale Konfiguration der virtualisierten Cloud-Hardware für den jeweiligen Anwendungsfall zu finden.

Im Vortrag soll gezeigt werden, welche Auswirkungen die Wahl unterschiedlicher Hardware-Parameter im Betrieb von Spark-Anwendungen haben können. Anhand unterschiedlicher Anwendung sollen die Einflussfaktoren bei der Hardwareauswahl aufgezeigt werden. Ausgangspunkt für die Messung der Leistungswerte ist ein Spark-Cluster auf Amazons Elastic Cloud Web Service. Typische Anwendungsszenarien von Spark aus dem Bereich Maschine Learning und Data Analysis sollen dabei als Benchmarks dienen.

Skills
Erfahrungen im Bereich Cluster- (Hadoop, Mesos etc.) und Cloud-Computing (ProfitBricks, RackSpace, Amazon Web Service etc.)

Lernziele
Es soll gezeigt werden, wie sich unterschiedliche Hardware-Konfigurationen auf das Verhalten von Spark-Anwendungen im Cluster Betrieb auswirken.

// Referent

// Ramon Wartala Ramon Wartala

ist Diplom-Informatiker und arbeitet als Director Technology für die Online-Marketing-Agentur Performance Media Deutschland GmbH in Hamburg. Er ist seit über 12 Jahren freier Autor und Speaker zum Thema Softwareentwicklung und Data Mining. Nebenbei berät er Firmen im Bereich Big Data und dort am liebsten mit dem freien Framework Hadoop. Anfang 2012 erschien sein Buch "Hadoop: Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen" als erste, deutschsprachige Publikation zum Thema.