Die Datenlandschaft eines global tätigen Marktforschungsunternehmens wie GfK ist gleichzeitig von unschätzbarem Wert wie auch herausfordernd. Granulare Abverkaufszahlen von Händlern in mehr als 100 Ländern, detaillierte Informationen zur Entwicklung des Markenwerts aller erdenklichen Marken in verschiedensten Märkten, Messungen unserer "Single Source"-Panels zu Medien- und Internetnutzung sowie Einkaufsverhalten von zehntausenden Haushalten und komplett erfasste globale Social Media Contents zu markenrelevanten Themen: All diese Daten (und noch viele mehr) ermöglichen unseren Data Scientists die Entwicklung ausgesprochen ausgefeilter Analysemethoden und -modelle. Auf der anderen Seite bringt die Komplexität der Datenlandschaft auch die große Herausforderung mit sich, die Daten transparent und leicht verfügbar zu machen.
Aus diesem Grund hat sich GfK entschieden, die komplette Datenlandschaft in einen Data Lake zu überführen. Die Herausforderungen sind angesichts der schieren Menge, aber auch der Heterogenität der Daten mannigfaltig und reichen von der Auswahl der geeigneten IT-Architektur über das optimale Vorgehen zur effizienten Erfassung der essenziell wichtigen Metadaten bis hin zur Konfiguration des bestmöglichen Analyse-Stacks für die Data Scientists.
Seit Mai 2015 baut GfK einen prototypischen Data Lake auf. Erfahrungen und "Lessons Learned" aus der Konzeptionsphase sowie erste Eindrücke nach dem Aufbau und der initialen Datenbefüllung des Data Lakes sollen Gegenstand dieses Vortrags sein. Vor allem aber wollen wir veranschaulichen, wie unsere Data Scientists mit dem Data Lake interagieren und wie sie explorativ neue Erkenntnisse aus dieser neuen, integrierten Datenlandschaft gewinnen können.
Skills
Ein grundlegendes Interesse an den (bzw. Verständnis für die) Herausforderungen, die eine globale Datenlandschaft wie die der GfK mit sich bringen, erleichtert den Zugang zum Thema.
Lernziele
Fokus des Vortrags wird die Schilderung unserer Erfahrungen und Schwierigkeiten, v.a. aber die Ableitung von Empfehlungen und die Veranschaulichung der Möglichkeiten von Data Lakes v.a. für Data Scientists sein. Dabei werden wir auf die Vermittlung eines Grundverständnisses abzielen, welches für die realistische Beurteilung dieses Feldes nötig ist.
// Referenten
// Dr. Ralph Wirth
arbeitet seit 2005 bei der Gesellschft für Konsumforschung (GfK). Bis 2012 war er im Bereich "Marketing & Data Science" u.a. für die Entwicklung methodischer Ansätze im Bereich Präferenzanalyse und Marktsimulation, danach im Team "Global Innovation & Digital" für das Management der weltweiten Innovationstätigkeiten der GfK zuständig. Seit März 2015 entwickelt und leitet er das neu gegründete "GfK Data Lab" – ein globales Data-Science-Team, das sich u.a. auf die Erforschung neuer Datenquellen und die Entwicklung innovativer Datenprodukte auf Basis der weltweiten Datenlandschaft der GfK fokussiert.
// Frank Rosenthal
arbeitet seit 2013 in der Abteilung "Marketing & Data Science" im Bereich "Data & Technology" der GfK SE. Ein wesentlicher Schwerpunkt seiner Arbeit ist der Einsatz statistischer Modelle und Verfahren des maschinellen Lernens zur Informationsanreicherung und Optimierung in Datenproduktionsprozessen.