Unsere Gehirne können Informationen am besten mit anschaulichen Darstellungen verarbeiten. Dabei müssen die Darstellungen die wichtigen Informationen hervorheben und auf die Grundkonzept der menschlichen Wahrnehmung Rücksicht nehmen. Datenvisualisierung ist somit eine höchst anspruchsvolle Disziplin und bewegt sich an der Schnittstelle von Menschen zur Maschine.
In diesem Workshop werden wir uns mit der Visualisierung von Daten mit Python beschäftigen. Grundlage ist die Grammatik für Visualisierungen, die wir anhand der auf Vega-Lite basierenden Bibliothek Altair erläutern werden. Dabei zeigen wir auch gleich, wie viel Interaktion mit einer solchen deklarativen Herangehensweise möglich ist.
Weitere Themen sind die explorative Visualisierungen von Daten, um deren Struktur und Inhalte besser zu verstehen. Dazu gehören neben einfachen Scatter Plots auch Darstellungen von Dimensionsreduktionen mit PCA und t-SNE. Zum besseren Verständnis von Machine-Learning-Verfahren visualisieren wir auch deren Decision Boundarys. Dies kann auch für das Debugging sehr hilfreich sein.
Alle Teile werden mit auf Colab gehosteten Notebooks unterstützt und enthalten Übungen.
Agenda
- ab 8.30 Uhr: Registrierung und Begrüßungskaffee
- 9.30 Uhr: Beginn
- Einführung in die Grundkonzepte der menschlichen Wahrnehmung
- Explorative Datenvisualisierung mit Matplotlib und Seaborn
- 11.00 - 11.15 Uhr: Kaffeepause
- PCA, t-SNE, UMAP: Visualisierung von hochdimensionalen Daten
- Visualisierung von Decision Boundaries
- 12.30 - 13.30 Uhr: Mittagspause
- Grammatik für Visualisierungen
- Interaktive Datenvisualisierung mit Altair
- 15.30 - 15.45 Uhr: Kaffeepause
- Manifold-Learning
- ca. 17.00 Uhr: Ende
Technische Anforderungen
Bringen Sie zum Workshop einen Laptop mit, auf dem der Chrome-Browser installiert ist.
Vorkenntnisse
Vorkenntnisse in Python sind ideal, aber nicht Voraussetzung; Kenntnisse einer objektorientierten Programmiersprache sind ausreichend, um den Workshop folgen zu können.
Lernziele
* Was ist die Grammatik für Visualisierungen?
* Wie können Sie mit Altair eigene Daten visualisieren?
* Arten von Visualisierungen von hochdimensionalen Daten
* Visualisierung von Machine-Learning-Ergebnissen
// Stefan Kühn
beschäftigt sich seit vielen Jahren mit Data Science, Machine Learning und mathematischer Grundlagenforschung. Heute arbeitet er als Senior Data Scientist bei XING, analysiert dort große Datenmengen und entwickelt moderne Algorithmen. Neben Themen wie Data Strategy, Data Governance und Data Quality interessiert er sich vor allem für Optimierungsmethoden im Kontext von Deep Learning.
//
Oliver Zeigermann
@DJCordhose
hat über Jahrzehnte in vielen unterschiedlichen Sprachen und mit vielen Technologien Software entwickelt. In den letzten Jahren ist er tief in die Analyse großer Datenmengen unter anderem auch mit Techniken des Machine Learning eingestiegen.