Wenn es wirklich Big wird – Datenanalyse skalieren mit PySpark
Massive Datenströme aus industriellen IoT-Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse- und Machine Learning-Workflows auf einem Cluster skalierbar zu machen.
Der Workshop steht unter dem Motto: Nicht reden, sondern machen! Wir stellen die wichtigsten Konzepte vor und ermöglichen den Teilnehmern Programmiererfahrung anhand von Praxisaufgaben zu sammeln. Wir arbeiten in der Cloud. Nur ein Laptop mit aktuellem Internetbrowser ist mitzubringen.
Vorkenntnisse
* Erste Erfahrungen mit Fragestellungen im Data-Science-Bereich
* Da der Workshop einen großen Anteil an interaktiven Beispielen hat, sind Programmierkenntnisse erforderlich (Python wird empfohlen)
* Für die Durchführung des Kurses gibt es keine besonderen technischen Voraussetzungen. Wir stellen eine digitale Laborumgebung in der Cloud bereit.
Lernziele
* Teilnehmerinnen und Teilnehmer erhalten einen breiten Einblick in Spark, lernen es, Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen.
* Es werden verschiedene praxisnahe Anwendungen vorgestellt und mit unserer Unterstützung interaktiv in IPython Notebooks bearbeitet.
* Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions etc.) und führen vom Datenimport bis hin zu erster Datenanalysen (mit Spark SQL und DataFrames) mit Beispielen und Übungen.