Praxisworkshop Polars: Der Turbo Boost für Dataframes

Polars ist eine neue leistungsstarke Dataframe-Bibliothek für Python, die auf Apache Arrow basiert und in Rust geschrieben ist und in den letzten Monaten sehr an Popularität gewonnen hat. Die Bibliothek skaliert wesentlich besser als der Platzhirsch Pandas und ist in gängigen Szenarien oft fünf- bis zehnmal schneller.

In dem Workshop werden wir sowohl die Grundlagen von Polars kennenlernen, die mächtigen Polars-Expressions vertiefen, die Unterschiede zu Pandas und anderen Bibliotheken behandeln (z.B. Spark und DuckDB) und auch besondere Features ausprobieren, wie das Out-Of-Core Processing für Daten, die nicht in den Hauptspeicher passen.

Vorkenntnisse

  • Teilnehmer:innen sollten grundlegende Kenntnisse einer Technologie zur Bearbeitung von strukturierten Daten haben, z.B. Pandas, SQL oder Apache Spark

Lernziele

Dieser Workshop richtet sich an Data Scientists, Data Engineers und Machine Learning Engineers und alle, die an schneller und effizienter Datenverarbeitung in Python interessiert sind. Die Teilnehmer:innen lernen im Workshop die Grundlagen, wie sie mit Polars strukturierte Daten abfragen und transformieren können und bekommen Best-Practices aus unserer Erfahrung vermittelt.

Agenda

  • ab 08:00 Uhr: Registrierung und Begrüßungskaffee
  • 09:00 - 11:00 Uhr: Daten Typen und Strukturen, Input/Output, Projektion, Selektion, Sortieren, Expressions
  • 10:45 - 11:00 Uhr: Kaffeepause
  • 11:00 - 12:30 Uhr: Aggregationen, Joins, Reshaping, spezielle Datentypen
  • 12:30 - 13:30 Uhr: Mittagspause
  • 13:30 - 15:00 Uhr: Custom Expressions, Lazy/Eager Modus, Streaming
  • 15:00 - 15:15 Uhr: Kaffeepause
  • 15:15 - 16:00 Uhr: Vergleich zu Alternativen, Erfahrungen aus der Praxis, Fragerunde
  • ca. 16:00 Uhr: Ende

 

Technische Anforderungen

  • Bringt einen eigenen Laptop mit, nach Möglichkeit mit mindestens 12 GB RAM
  • Für die Übungen werden wir Jupyter-Notebooks benutzen. Zwei mögliche Optionen zur Nutzung:
    Wir werden euch ca. eine Woche vor dem Workshop ein Notebook schicken, mit dem ihr prüfen könnt, ob alles passt.

Falls ihr ein Gerät eurer Firma verwendet, überprüft vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei euch auftreten könnte.
  • Workshop-Teilnehmer:in hat keine Administrator-Rechte.
  • Corporate Laptops mit übermäßig penibler Sicherheitssoftware
  • Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.

Speaker

 

Thomas Bierhance
Thomas Bierhance arbeitet seit 25 Jahren leidenschaftlich gerne mit Daten: von kleinen Datenbanken für KMU über große verteilte Systeme für internationale Unternehmen bis hin zu intelligenten Systemen mit maschinellem Lernen. Er leitet den Bereich Data Science & AI bei BettercallPaul in Stuttgart und unterstützt seine Kunden und Teams auf ihrem Weg, aus Daten einen Mehrwert zu generieren.

Tobias Sachon
Tobias Sachon ist Senior Software Engineer bei BettercallPaul in Stuttgart und entwickelt kundenspezifische Software für internationale Unternehmen. Sein Schwerpunkt liegt auf der Architektur und Algorithmenentwicklung. Schon seit seiner Studienzeit begeistert er sich für Maschinelles Lernen. Er hat eine Leidenschaft für funktionale Programmierung und setzt diese gerne in seiner täglichen Arbeit ein.

data2day-Newsletter

Ihr möchtet über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden