Vielen Dank an alle Beteiligten für eine sehr schöne data2day 2024 in Heidelberg! Wir sehen uns im nächsten Jahr wieder – am 4. und 5. November 2025 in Karlsruhe

Machine Learning mit PySpark (Freitag)

Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Durch das wachsende Arsenal an Verfahren aus dem Bereich Machine Learning eignet es sich sehr gut, um auch aus großen Datenmengen valide Modelle zu erzeugen. Zudem ist durch die Anbindung der modernen und universellen Skriptsprache Python die Einstiegshürde gerade für (werdende) Data Scientists deutlich gesunken.

Der Workshop ist ein Crashkurs sowohl für Spark als auch für Machine Learning. Anhand von Beispielen und Übungen erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung, der danach schnell ausgebaut werden kann.

Agenda
  • ab 08.30 Uhr: Registrierung und Begrüßungskaffee

  • 9.30 - 9.45 Uhr: Organisation und Umgebung

  • 9.45 - 10.00 Uhr: Spark Kurzvorstellung

  • 10.00 - 11.00 Uhr: Spark DataFrame API (Hands-on-Training)

    • Loading Data from S3

    • Simple DataFrame Operations (Selects, ...)

    • SparkSQL

  • 11.00 - 11.15 Uhr: Kaffeepause

  • 11.15 - 11.30 Uhr: Einführung in Machine Learning

  • 11.30 - 12.30 Uhr: Einfache Lineare Regression (Hands-on-Training)

    • Extraktion der Features

    • Training des Modells

    • Vorhersage mit Hilfe des Modells

  • 12.30 - 13.30 Uhr: Mittagspause

  • 13.30 - 14.00 Uhr: Building Spark ML Pipelines (Hands-on-Training)

    • Building Pipelines

    • Training Pipelines

    • Prediction using Pipelines

  • 14.00 - 15.30 Uhr: Building a simple Sentiment Classifier (Hands-on-Training)

    • Bag of Words Model

    • Feature Extraction

    • Training a Classifier

  • 15.30 - 15.45 Uhr: Kaffeepause

  • 15.45 - 17.00 Uhr: Improving the Sentiment Classifier (Hands-on-Training)

    • Removing Stop-Words

    • TF-IDF Model

    • Model Evaluation

    • Parameter Selection / Cross Validation

  • 17.00: Ende

Technische Anforderungen
Die Teilnehmer benötigen ein Notebook mit Firefox oder Chrome oder Edge als Browser.

Falls Sie ein Gerät Ihrer Firma verwenden, überprüfen Sie vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei Ihnen auftreten könnte:

  • Workshop-Teilnehmer hat keine Administrator-Rechte

  • Corporate Laptops mit übermäßig penibler Sicherheitssoftware

  • Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.

Vorkenntnisse

Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.

Lernziele

* Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
* Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
* Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
* Mit PySpark werden schließlich auch Pipelines für aufeinander aufbauende Schritte verwendet.

Speaker

 

Kaya Kupferschmidt
Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data und speziell Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

data2day-Newsletter

Ihr möchtet über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden