Wenn es wirklich Big wird – Datenanalyse skalieren mit PySpark

Massive Datenströme aus industriellen IoT-Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse- und Machine Learning-Workflows auf einem Cluster skalierbar zu machen.

Der Workshop steht unter dem Motto: Nicht reden, sondern machen! Wir stellen die wichtigsten Konzepte vor und ermöglichen den Teilnehmern Programmiererfahrung anhand von Praxisaufgaben zu sammeln. Wir arbeiten in der Cloud. Nur ein Laptop mit aktuellem Internetbrowser ist mitzubringen.

Vorkenntnisse

* Erste Erfahrungen mit Fragestellungen im Data-Science-Bereich
* Da der Workshop einen großen Anteil an interaktiven Beispielen hat, sind Programmierkenntnisse erforderlich (Python wird empfohlen)
* Für die Durchführung des Kurses gibt es keine besonderen technischen Voraussetzungen. Wir stellen eine digitale Laborumgebung in der Cloud bereit.

Lernziele

* Teilnehmerinnen und Teilnehmer erhalten einen breiten Einblick in Spark, lernen es, Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen.
* Es werden verschiedene praxisnahe Anwendungen vorgestellt und mit unserer Unterstützung interaktiv in IPython Notebooks bearbeitet.
* Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions etc.) und führen vom Datenimport bis hin zu erster Datenanalysen (mit Spark SQL und DataFrames) mit Beispielen und Übungen.

 

Agenda

Processing Big Data
  • What strategies do we have available to compute efficiently with increasing amounts of data? What is a cluster, and when do we need one?
Introducing Apache Spark
  • What is Spark all about, and what are its components?
Spark Fundamentals
  • An introduction to the fundamental concepts as well as core data structures and operations.
Submitting Spark Jobs
  • How to submit jobs to a Spark cluster for batch processing.
Structured Data
  • Working with tabular data in Spark.
Streaming Data
  • Processing large-scale live data streams.
Zeitplan
9:30: Beginn
12:00 - 13:15: Mittagspause
17:00: Ende

 

Technische Anforderungen:

Es wird eine stabile Internetverbindung, ein moderner Browser, Zoom, ein Mikro und eine Webcam benötigt.

Speaker

 

Dr. Christian Staudt
Dr. Christian Staudt unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er mit der Point 8 GmbH Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte.

Dr. Julian von der Ecken
Dr. Julian von der Ecken ist Data Scientist und Trainer bei der Point 8 GmbH. Durch seine Arbeit sowohl im Bereich von industriellen Kundenprojekten im Anlagen- und Maschinenbau als auch in der Schwerindustrie kann er auf ein breites Erfahrungsspektrum verschiedener User Cases zurückgreifen. Für Point 8 entwickelt und gibt er zudem Trainings für verschiedene Zielgruppen.

Sponsoren

Gold
Silber
Opitz
codecentric
inovex

data2day-Newsletter

Ihr möchtet über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden