Seit den letzten Jahren entwickelt sich Machine Learning zu einem Kernbestandteil vieler Unternehmen und Domänen. Stetig steigende Datenmengen und zunehmend komplexere Analytik führen in der Systemlandschaft zu der Entwicklung einer Reihe skalierbarer Machine-Learning-Plattformen mit unterschiedlichen Systemabstraktionen und Eigenschaften, um diesen Anforderungen gerecht zu werden. Systeme wie sog. "Parameter Server" stellen dem Anwender einen Satz an Low-level-Primitiven bereit und überlassen dem Anwender die Wahl und Umsetzung einer geeigneten Parallelisierungsstrategie.
Komplementäre Ansätze wie Spark und GraphLab dagegen basieren auf konkreten Ausführungsmodellen und stellen reichhaltige Programmierabstraktionen zur Umsetzung bereit. Das ermöglicht es dem Anwender, auf abstrakter(er) Ebene mit den Parallelisierungs- und Verteilungsaspekten von ML-Algorithmen umzugehen. Die diametrale Evolution der Systeme ist eine Folge des breiten Spektrums der zur Verfügung stehenden Verfahren. Aufgrund struktureller Eigenschaften erfordern viele Algorithmen unterschiedliche Parallelisierungs- und Ausführungsansätze, um effizient in großen Maßstab
eingesetzt werden zu können.
In diesem Vortrag werden eine Reihe unterschiedlicher Systemansätze und damit gekoppelten Programmiermodelle vorgestellt, für welche "Klasse an Problemen" sie geeignet sind.
Skills
Grundlagen im maschinellen Lernen, Grundlagen im Bereich Scalable Data Analytics (z.B MapReduce, Spark, Flink, ...)
Lernziele
Der Vortrag vermittelt einen Überblick (und eine Klassifizierung) über die reichhaltige Systemlandschaft skalierbarer ML-Plattformen.
// Referent
// Tobias Herb
ist Doktorand am Fachgebiet Verteilter und Komplexer IT Systeme (CIT) der Technischen Universität Berlin. Er forscht im Rahmen des DFG-geförderten Projekts Stratosphere II, dessen Vorgängerprojekt Bekanntheit als Apache Flink erlangt hat. Der primäre Forschungsfokus liegt auf Ausführungsmodellen und deklarativen Programmierabstraktionen skalierbarer Machine-Learning-Algorithmen.