data2day 2014 » Agenda »
Textanalyse mit Apache UIMA und Hadoop
Big Data verspricht den Unternehmen die 360°-Sicht auf ihre Kunden, indem die Analyse von Daten aus verschiedensten Kanälen möglich werden soll. Insbesondere in den sozialen Medien entstehen große Mengen an Text, Video und Audio. Doch wie lassen sich aus diesen "Unstructured Data" verwertbare Informationen gewinnen? Apache UIMA ist ein Framework zur Verarbeitung und inhaltlichen Analyse unstrukturierter Daten, insbesondere Text.
Dieser Vortrag bietet eine Einführung in Apache UIMA und seine Architektur. Am Beispiel wird erklärt, welche Annotationskomponenten zur Verfügung stehen und wie diese zu Pipelines kombiniert werden können. Außerdem wird eine Integration von UIMA mit Hadoop gezeigt.
Referent
// Hans-Peter Zorn
ist Big Data Scientist bei der inovex GmbH. Zuvor beschäftigte er sich am UKP Labder TU Darmstadt mit der Analyse großer Textmengen mit Hadoop.