Einstellungen

Wir respektieren Ihr Recht auf Privatsphäre. Sie können sich dafür entscheiden, einige Arten von Cookies nicht zuzulassen. Ihre Cookie-Einstellungen gelten für unsere gesamte Website.

 

Wir verwenden Cookies auf unserer Website, um unseren Datenverkehr zu analysieren und damit ihre Usererfahrung zu verbessern. Diese Cookies sind aber nicht notwendig, um unsere Seiten korrekt abzurufen.  Datenschutzerklärung.

Ihr möchtet mit Eurem Team teilnehmen? Ab drei Personen profitiert Ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Machine Learning mit PySpark (Freitag)

Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Durch das wachsende Arsenal an Verfahren aus dem Bereich Machine Learning eignet es sich sehr gut, um auch aus großen Datenmengen valide Modelle zu erzeugen. Zudem ist durch die Anbindung der modernen und universellen Skriptsprache Python die Einstiegshürde gerade für (werdende) Data Scientists deutlich gesunken.

Der Workshop ist ein Crashkurs sowohl für Spark als auch für Machine Learning. Anhand von Beispielen und Übungen erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung, der danach schnell ausgebaut werden kann.

Agenda
  • ab 08.30 Uhr: Registrierung und Begrüßungskaffee

  • 9.30 - 9.45 Uhr: Organisation und Umgebung

  • 9.45 - 10.00 Uhr: Spark Kurzvorstellung

  • 10.00 - 11.00 Uhr: Spark DataFrame API (Hands-on-Training)

    • Loading Data from S3

    • Simple DataFrame Operations (Selects, ...)

    • SparkSQL

  • 11.00 - 11.15 Uhr: Kaffeepause

  • 11.15 - 11.30 Uhr: Einführung in Machine Learning

  • 11.30 - 12.30 Uhr: Einfache Lineare Regression (Hands-on-Training)

    • Extraktion der Features

    • Training des Modells

    • Vorhersage mit Hilfe des Modells

  • 12.30 - 13.30 Uhr: Mittagspause

  • 13.30 - 14.00 Uhr: Building Spark ML Pipelines (Hands-on-Training)

    • Building Pipelines

    • Training Pipelines

    • Prediction using Pipelines

  • 14.00 - 15.30 Uhr: Building a simple Sentiment Classifier (Hands-on-Training)

    • Bag of Words Model

    • Feature Extraction

    • Training a Classifier

  • 15.30 - 15.45 Uhr: Kaffeepause

  • 15.45 - 17.00 Uhr: Improving the Sentiment Classifier (Hands-on-Training)

    • Removing Stop-Words

    • TF-IDF Model

    • Model Evaluation

    • Parameter Selection / Cross Validation

  • 17.00: Ende

Technische Anforderungen
Die Teilnehmer benötigen ein Notebook mit Firefox oder Chrome oder Edge als Browser.

Falls Sie ein Gerät Ihrer Firma verwenden, überprüfen Sie vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei Ihnen auftreten könnte:

  • Workshop-Teilnehmer hat keine Administrator-Rechte

  • Corporate Laptops mit übermäßig penibler Sicherheitssoftware

  • Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.

Vorkenntnisse

Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.

Lernziele

* Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
* Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
* Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
* Mit PySpark werden schließlich auch Pipelines für aufeinander aufbauende Schritte verwendet.

Speaker

 

Kaya Kupferschmidt
Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data und speziell Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

data2day-Newsletter

Du möchtest über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden