- | Heidelberg, 1.– 1. Januar 1970 2018 :: Machine Learning mit PySpark (Dienstag)

Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Durch das wachsende Arsenal an Verfahren aus dem Bereich Machine Learning eignet es sich sehr gut, um auch aus großen Datenmengen valide Modelle zu erzeugen. Zudem ist durch die Anbindung der modernen und universellen Skriptsprache Python die Einstiegshürde gerade für (werdende) Data Scientists deutlich gesunken.

Der Workshop ist ein Crashkurs sowohl für Spark als auch für Machine Learning. Anhand von Beispielen und Übungen erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung, der danach schnell ausgebaut werden kann.

Agenda

ab 08.30 Uhr: Registrierung und Begrüßungskaffee

9.30 - 9.45 Uhr: Organisation und Umgebung

9.45 - 10.00 Uhr: Spark Kurzvorstellung

10.00 - 11.00 Uhr: Spark DataFrame API (Hands-on-Training)

Loading Data from S3

Simple DataFrame Operations (Selects, ...)

SparkSQL

11.00 - 11.15 Uhr: Kaffeepause

11.15 - 11.30 Uhr: Einführung in Machine Learning

11.30 - 12.30 Uhr: Einfache Lineare Regression (Hands-on-Training)

Extraktion der Features

Training des Modells

Vorhersage mit Hilfe des Modells

12.30 - 13.30 Uhr: Mittagspause

13.30 - 14.00 Uhr: Building Spark ML Pipelines (Hands-on-Training)

Building Pipelines

Training Pipelines

Prediction using Pipelines

14.00 - 15.30 Uhr: Building a simple Sentiment Classifier (Hands-on-Training)

Bag of Words Model

Feature Extraction

Training a Classifier

15.30 - 15.45 Uhr: Kaffeepause

15.45 - 17.00 Uhr: Improving the Sentiment Classifier (Hands-on-Training)

Removing Stop-Words

TF-IDF Model

Model Evaluation

Parameter Selection / Cross Validation

17.00: Ende

Technische Anforderungen
Die Teilnehmer benötigen ein Notebook mit Firefox oder Chrome oder Edge als Browser.

Falls Sie ein Gerät Ihrer Firma verwenden, überprüfen Sie vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei Ihnen auftreten könnte:

Workshop-Teilnehmer hat keine Administrator-Rechte

Corporate Laptops mit übermäßig penibler Sicherheitssoftware

Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.

Vorkenntnisse
Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.

Lernziele
* Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
* Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
* Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
* Mit PySpark werden schließlich auch Pipelines für aufeinander aufbauende Schritte verwendet.

// Kaya Kupferschmidt

arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data und speziell Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

Machine Learning mit PySpark (Dienstag)

// Kaya Kupferschmidt

Kontakt

Unser Konferenz-Portfolio

Bilder von der Konferenz