Konferenz für Big Data,
Data Science und Machine Learning
Heidelberg, Print Media Academy, 26.-29. September 2017

Verteilte TensorFlow-Architekturen im Vergleich

Die Menge von Trainingsdaten und Machine-Learning-Modellen wird immer größer, folglich kommen Scale-up-Ansätze auf Single-Maschinen an ihr Limit. Da bessere Modelle durch mehr Daten und mehr Rechenleistung erreicht werden, muss eine verteilte Architektur horizontal skalieren und bevorzugt mit GPUs ausgestattet sein. Doch beim Aufbau einer verteilten Machine-Learning-Plattform müssen unterschiedliche Architekturfragen betrachtet werden.

Im Vortrag werden verschiedene Architekturen (u.a. von Google, Intel und Yahoo) anhand von Kriterien wie Scheduling, Datenlokalität, Workload, Resource Sharing etc. bewertet und diskutiert. Darüber hinaus lernen die Zuhörer wie bestehende Data Lakes auf Hadoop für verteiltes Machine Learning mit TensorFlow erweitert werden. Anhand eines realen Beispiels aus der Fahrzeugentwicklung für das autonome Fahren werden abschließend Lessons Learned aufgezeigt.

Vorkenntnisse
* Gundlagenwissen zu TensorFlow und Machine Learning
* Gundlagenwissen zu verteilten Architekturen

Lernziele
Das Ziel dieser Session ist es, dem Zuhörer Lessons Learned an die Hand zu geben, wie der Aufbau einer eigenen verteilten Machine-Learning-Plattform gelingen kann bzw. wie bestehende Data Lakes für verteiltes Machine Learning erweitert werden.

// Jan Wiegelmann Jan Wiegelmann

ist Director Data Analytics bei Valtech und berät Firmen bei der digitalen Transformationen im Bereich Big Data und Advanced Analytics. Mit Machine Learning für das autonome Fahren hat er mehrere Projekte geleitet und eine verteilte Daten-Plattform aufgebaut. Davor arbeitete er als Head of Big Data, um für Automobilkunden den Engineering-Prozess durch Datenanalyse zu optimieren.


l>