Konferenz für Big Data,
Data Science und Machine Learning
Heidelberg, Print Media Academy, 26.-29. September 2017

Analyse und Klassifikation großer Mengen von Textdaten

Text ist eine der am weitesten verbreitete Form der Kommunikation und allgegenwärtig im Internet. Richtig verwendet, können Computer Menschen sehr bei der Strukturierung und Klassifikation großer Textmengen helfen.

Wir beginnen damit, frei verfügbare Texte zu zeigen, und speichern sie in einer SQlite-Datenbank zur einfacheren Weiterverwendung. Danach nutzen wir Topic Modelling, Apache Solr und Visualisierungstools, um passende Kategorien zu finden.

Wir verwenden sowohl symbolische als auch Machine-Learnig-Methoden zur Klassifikation der Kategorien und vergleichen diese. Für Machine Learning zeigen wir die geschickte Auswahl eines Trainingssets.

Zur Klassifikation selbst verwenden wir Python (Scikit und NLTK). Wir erklären den Unterschied zwischen Multi-/Single-Class-/Label-Verfahren. Wir erklären Precision und Recall als Qualitätsmetriken und zeigen, warum quantitative Größen essenziell wichtig sind zur Qualitätsbeurteilung von Klassifikationsprojekten.


Technische Anforderungen

Auf den Computern der Teilnehmer sollte Java 1.8 (JRE oder JDK) installiert sein, notfalls auch im Homedirectory, wenn global nicht möglich. Zugriffe erfolgen nur auf localhost, das müssten die Virenscanner und Firewalls alle erlauben. Admin-Rechte werden nicht benötigt. Apache Solr und alles andere bringen wir auf USB-Sticks mit (die sollten in den Rechnern dann aber funktionieren).

Falls Sie ein Gerät Ihrer Firma verwenden, überprüfen Sie vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei Ihnen auftreten könnte.
* Workshop-Teilnehmer hat keine Administrator-Rechte.
* Corporate Laptops mit übermäßig penibler Sicherheitssoftware
* Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.

Vorkenntnisse
* Teilnehmer sollten sich für funktionale und/oder technische Textanalyse interessieren.
* Kategorisierung, Facetten und Grundverständnis von SQL sind hilfreich, aber nicht unbedingt notwendig, weil wir die Details erklären.
* Die Python-Programme sind selbsterklärend und enthalten nur wenig Code. Dennoch sind Grundkenntnisse in Python hilfreich.

Lernziele
Nach dem Tutorial werden die Teilnehmer selbst Text klassifizieren und dazu die richtige Methode auswählen können. Teilnehmer können die Güte ihrer Klassifikation messen und wissen, dass eine Quantifizierung der Ergebnisqualität unerlässlich ist.

// Stephanie Fischer Stephanie Fischer

ist Product Owner für Projekte im Bereich Machine Learning, Text Analytics und Suche bei den mgm consulting partners. Sie begleitet Projekte und Organisationen bei ihrer agilen Transformation. Sie hat einen Hintergrund in Organisationsentwicklung, Agilität und Business Analytics.


// Christian Winkler Christian Winkler

promovierte an der FAU Erlangen-Nürnberg und arbeitet seit 20 Jahren in der Softwareentwicklung. Der Umgang mit großen Datenmengen oder vielen Nutzern reizt ihn besonders. Seinen Fokus legt er auf intelligente Algorithmen aus dem Bereich des maschinellen Lernens, der Geodatenverarbeitung und Statistik. Er spricht häufig auf Konferenzen und ist Autor von Artikeln zu Big Data.

l>