Machine Learning mit PySpark (Freitag)
Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Durch das wachsende Arsenal an Verfahren aus dem Bereich Machine Learning eignet es sich sehr gut, um auch aus großen Datenmengen valide Modelle zu erzeugen. Zudem ist durch die Anbindung der modernen und universellen Skriptsprache Python die Einstiegshürde gerade für (werdende) Data Scientists deutlich gesunken.
Der Workshop ist ein Crashkurs sowohl für Spark als auch für Machine Learning. Anhand von Beispielen und Übungen erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung, der danach schnell ausgebaut werden kann.
Agenda- ab 08.30 Uhr: Registrierung und Begrüßungskaffee
- 9.30 - 9.45 Uhr: Organisation und Umgebung
- 9.45 - 10.00 Uhr: Spark Kurzvorstellung
- 10.00 - 11.00 Uhr: Spark DataFrame API (Hands-on-Training)
- Loading Data from S3
- Simple DataFrame Operations (Selects, ...)
- SparkSQL
- 11.00 - 11.15 Uhr: Kaffeepause
- 11.15 - 11.30 Uhr: Einführung in Machine Learning
- 11.30 - 12.30 Uhr: Einfache Lineare Regression (Hands-on-Training)
- Extraktion der Features
- Training des Modells
- Vorhersage mit Hilfe des Modells
- 12.30 - 13.30 Uhr: Mittagspause
- 13.30 - 14.00 Uhr: Building Spark ML Pipelines (Hands-on-Training)
- Building Pipelines
- Training Pipelines
- Prediction using Pipelines
- 14.00 - 15.30 Uhr: Building a simple Sentiment Classifier (Hands-on-Training)
- Bag of Words Model
- Feature Extraction
- Training a Classifier
- 15.30 - 15.45 Uhr: Kaffeepause
- 15.45 - 17.00 Uhr: Improving the Sentiment Classifier (Hands-on-Training)
- Removing Stop-Words
- TF-IDF Model
- Model Evaluation
- Parameter Selection / Cross Validation
- 17.00: Ende
Technische Anforderungen
Die Teilnehmer benötigen ein Notebook mit Firefox oder Chrome oder Edge als Browser.
Falls Sie ein Gerät Ihrer Firma verwenden, überprüfen Sie vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei Ihnen auftreten könnte:
- Workshop-Teilnehmer hat keine Administrator-Rechte
- Corporate Laptops mit übermäßig penibler Sicherheitssoftware
- Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.
Vorkenntnisse
Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.
Lernziele
* Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
* Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
* Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
* Mit PySpark werden schließlich auch Pipelines für aufeinander aufbauende Schritte verwendet.