Analyse und Klassifikation großer Mengen von Textdaten
Text ist eine der am weitesten verbreitete Form der Kommunikation und allgegenwärtig im Internet. Richtig verwendet, können Computer Menschen sehr bei der Strukturierung und Klassifikation großer Textmengen helfen.
Wir beginnen damit, frei verfügbare Texte zu zeigen, und speichern sie in einer SQlite-Datenbank zur einfacheren Weiterverwendung. Danach nutzen wir Topic Modelling, Apache Solr und Visualisierungstools, um passende Kategorien zu finden.
Wir verwenden sowohl symbolische als auch Machine-Learnig-Methoden zur Klassifikation der Kategorien und vergleichen diese. Für Machine Learning zeigen wir die geschickte Auswahl eines Trainingssets.
Zur Klassifikation selbst verwenden wir Python (Scikit und NLTK). Wir erklären den Unterschied zwischen Multi-/Single-Class-/Label-Verfahren. Wir erklären Precision und Recall als Qualitätsmetriken und zeigen, warum quantitative Größen essenziell wichtig sind zur Qualitätsbeurteilung von Klassifikationsprojekten.
Technische Anforderungen
Auf den Computern der Teilnehmer sollte Java 1.8 (JRE oder JDK) installiert sein, notfalls auch im Homedirectory, wenn global nicht möglich. Zugriffe erfolgen nur auf localhost, das müssten die Virenscanner und Firewalls alle erlauben. Admin-Rechte werden nicht benötigt. Apache Solr und alles andere bringen wir auf USB-Sticks mit (die sollten in den Rechnern dann aber funktionieren).
Falls Sie ein Gerät Ihrer Firma verwenden, überprüfen Sie vorher bitte, ob eines der folgenden, gelegentlich vorkommenden Probleme bei Ihnen auftreten könnte.
* Workshop-Teilnehmer hat keine Administrator-Rechte.
* Corporate Laptops mit übermäßig penibler Sicherheitssoftware
* Gesetzte Corporate-Proxies, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden.
Vorkenntnisse
* Teilnehmer sollten sich für funktionale und/oder technische Textanalyse interessieren.
* Kategorisierung, Facetten und Grundverständnis von SQL sind hilfreich, aber nicht unbedingt notwendig, weil wir die Details erklären.
* Die Python-Programme sind selbsterklärend und enthalten nur wenig Code. Dennoch sind Grundkenntnisse in Python hilfreich.
Lernziele
Nach dem Tutorial werden die Teilnehmer selbst Text klassifizieren und dazu die richtige Methode auswählen können. Teilnehmer können die Güte ihrer Klassifikation messen und wissen, dass eine Quantifizierung der Ergebnisqualität unerlässlich ist.