Zurück

Praxisnahe Erfahrungen aus dem Data-Quality-Dschungel

Unter Datenqualität versteht man den Grad der Übereinstimmung von Daten mit den durch sie repräsentierten realen Dingen oder Sachverhalten.

Da es in der Praxis oft schwierig ist, die Qualität von Daten anhand dieser Definition zu beurteilen, wird versucht, die Qualität von Daten über die Abweichung von zuvor definierten Annahmen zu beurteilen, z.B. ob der Temperaturwert eines Sensors in einem erwarteten Wertebereich liegt und dessen Einheiten nur aus einem vordefinierten Set ["Celsius", "Fahrenheit"] stammen. Qualitative Daten sind für Datenprodukte von immenser Bedeutung, da sie z.B. über Schnittstellen bereitgestellt werden, oder die Prognosequalität von ML-Modellen beeinflussen.

In unserem Vortrag wollen wir neben Data-Quality-Grundlagen von unseren Praxis-Erfahrungen bei der Verwendung der Data Quality Frameworks Soda und Great Expectations berichten.

Vorkenntnisse

Grundlegendes Verständnis von Data Engineering
Grundlegendes Verständnis von Datenverarbeitung mit Python/PySpark

Lernziele

Wichtigkeit von guter Datenqualität verstehen
Herausforderungen und Lösungsansätze bei der Sicherstellung von Data Quality verstehen
Grundlegendes Verständnis von Great Expectations und Soda und deren Vor- und Nachteile

Speaker

Florian Gräbe hat am KIT Wirtschaftinsgenieurwesen studiert. Aktuell arbeitet er bei inovex als Data- und ML Engineer und setzt dort Datenprojekte in der Cloud für Kunden aus verschiedensten Branchen um.

Marcel Spitzer ist Data Engineer bei inovex. Er beschäftigt sich mit der Entwicklung von Streaming- und Batch-Pipelines zur Datenverarbeitung in verteilten Systemen und nutzt Machine Learning um Datenprodukte smart zu machen.

Jetzt Tickets sichern

data2day-Newsletter

Ihr möchtet über die data2day
auf dem Laufenden gehalten werden?

Anmelden