Das Rollenverständnis von Data Scientists hat sich stark erweitert. Statt Modelle für einmalige Analysen zu erstellen, wird häufiger in konkreten Entwicklungsprojekten gearbeitet, in denen Prototypen in produktive Anwendungen überführt werden. Entsprechende Modelle sind komplex und bedienen sich oft einer Vielzahl von Technologien. Um den Ansprüchen an den Produktionsbetrieb zu genügen hilft das Open-Source-Framework Luigi von Spotify.
In dem Vortrag schauen wir uns kurz die Konzepte von Luigi an und bauen anschließend mit wenigen Zeilen Code eine ML-Pipeline, die Reddit-Posts in ihre Subreddits einordnet – robust und production ready!
Vorkenntnisse
* Programmiererfahrung in Python
Lernziele
* Die Konzepte und Grundlagen von Luigi kennen lernen
* Die wichtigsten Themen für einen produktiven Betrieb erarbeiten
* Wie lassen sich die Punkte mit wenig Aufwand mit Luigi in Angriff nehmen
//
Mark Keinhörster
@kein_mark
ist Data Architect bei der codecentric AG. Er ist im Big-Data-Zoo zu Hause und beschäftigt sich außerdem mit Docker, Microservices und Cloud-Technologien.