Intelligente Datenintegration – ML als Katalysator zur Wertschöpfung aus Daten

Auf dem Weg zur modernen Advanced-Analytics-Anwendung ist die Datenintegration ein notwendiger, aber auch aufwendiger Schritt. Da es sich dabei oft um repetitive Prozesse handelt, liegt es nahe, den manuellen Aufwand mittels Machine Learning zu reduzieren.

In diesem Vortrag stelle ich ein praxiserprobtes Konzept vor, um die zeitaufwendige Integration tabellarischer Daten deutlich zu beschleunigen. Das Herzstück ist ein Python-Paket, das mithilfe eines XGBoost-Modells Tabellenspalten klassifiziert und damit die Grundlage für das eigentliche Schema Matching schafft. Der Vortrag behandelt neben dem analytischen Kern auch technische Aspekte und stellt die gemachten Projekterfahrungen heraus.

Vorkenntnisse

Grundlagen in Machine Learning (genauer Supervised Learning) und relationalen Datenbanken.

Lernziele

• Relevanz des Themas Datenintegration als Voraussetzung für viele Advanced-Analytics-Anwendungen wie Machine Learning verdeutlichen
• Allgegenwärtigkeit des Problems tabellarischer Daten in einheitliche Schemas zu integrieren
• Schema Matching als supervised Learning Problem formulieren
• Erwartbare Performance der Modelle in der realen Anwendung
• Bewusstsein für die Hürden in der Umsetzung in Projekten schaffen

 

Speaker

 

David Hipp
David Hipp ist Data Scientist und Projektleiter bei der HMS Analytical Software GmbH in Heidelberg. Während seiner Promotion in Mathematik forschte er an Werkzeugen, um die Güte von Wellensimulationen zu bestimmen und engagierte sich in der Wissenschaftskommunikation. Heute automatisiert er Datenintegration mit Hilfe von Machine Learning und entwickelt Advanced-Analytics-Plattformen.

Gold-Sponsoren

HMS
Structr

Silber-Sponsoren

codecentric
Phytec
*um

Bronze-Sponsor

incontext.technology GmbH

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden