data2day 2014 » Agenda »
Modellmanagement – eine neue Aufgabe im Big-Data-Szenario
Bei Big Data geht es nicht um vordergründiges Speichern oder Bewegen von Datenmengen oder numerisches Number Crunching. Er geht darum, Daten gewinnbringend zu nutzen. Die Chance von Big Data liegt nicht in IT-Infrastuktur-Technologien, sondern in der analytischen Auswertung. Künftig haben wir nun tausende Prognosemodelle für hunderte Kundensegmente anstelle weniger Modelle für alle Kunden gemeinsam. Das ist die neue Qualität. Somit entsteht eine völlig neue Aufgabe, nämlich alle diese Modelle in vernünftiger Art und Weise zu managen.
Dieser Vortrag zeigt wie ein Kochrezept auf, was zu tun ist: Wie Sie eine Modellfabrik aufbauen und wie diese als Produktion verstanden und gehandhabt wird.
Wesentliche Aspekte sind: Wie lassen sich Modelle parallel erstellen und evaluieren, wie diese automatisiert auf neue Daten anwenden, wie die Leistung und Gültigkeit der Modelle überwachen und diese gegebenenfalls als neue Kandidaten retrainieren oder sogar auf eine andere statistische Methode umstellen und nach all dem als neues Modell produktiv setzen? Benötigt werden Alarme in Ergänzung zur Modellüberwachung und dokumentierte Versionierung der Modelle und sogar einzelner Scorewerte. Wie lassen sich all diese Modelle von der Entwicklung in den Test bis hin zur Produktion übergeben? Wir benötigen automatische oder verschiedene Niveaus manueller Freigaben. Zudem detaillierte Benutzerrechte im analytischen Team für Sicherheitsbelange und gesetzliche Auflagen. Business-Regeln können Modellprognosen zudem dominieren oder zur automatischen Verwendung eines anderen Modell führen, und dies in Abhängigkeit jedes individuellen Datensatzes!
Der Vortrag gibt einen Überblick über das "Was" und "Wie". Zur Visualisierung und Unterstützung des Vortrages wird man Abläufe, Ampel-Leitstände, Qualitätsregelkarten und einiges andere mehr sehen, die mit der Software Statistica erstellt werden.
Referent
// Marc Anger
ist Ingenieur, 25 Jahre in der IT-Branche und Vertriebsleiter von StatSoft, dem Spezialisten für Datenanalysen und Hersteller der Software STATISTICA. Er hat Erfahrung aus unzähligen analytischen Projekten und kennt Big Data schon aus der Zeit vor dem Hype aus der täglichen Arbeit.