Konferenz für Big Data,
Data Science und Machine Learning
Heidelberg, Print Media Academy, 26.-29. September 2017

Zeitserien in Apache Cassandra: Was man falsch (und richtig) machen kann

In modernen Industrieanlagen fällt eine Vielzahl von Prozessdaten an, die sowohl bei der Analyse von Problemen als auch für die Vorhersage zukünftig auftretender Probleme sehr hilfreich sein können. Traditionell erfolgt die Speicherung solcher Daten oft in SQL-Datenbanken, was meistens wenig effizient ist. Durch den Einsatz von Apache Cassandra ist es möglich mehr Daten bei niedrigeren Kosten zu archivieren.

Dieser Vortrag gibt eine Einführung in die Speicherung von Zeitserien in einer Cassandra-Datenbank und berichtet von den Erfahrungen, die während des mehrjährigen Einsatzes von Cassandra in einer großen Anlage (mit mehr als 20.000 archivierten Prozessvariablen) gesammelt wurden.

Vorkenntnisse
Der Vortrag setzt grundlegende Kenntnisse von Datenstrukturen (z.B. Hashtables, B-Trees, aber keine Implementierungsdetails) voraus. Außerdem sind Vorkenntnisse zu Apache Cassandra notwendig.

Lernziele
Der Vortrag erläutert, wie man Daten, die in Form von Zeitserien vorliegen, in einer Cassandra-Datenbank speichert und welche Fallstricke es dabei gibt. Nach dem Vortrag sollten Zuhörer einschätzen können, ob sich Apache Cassandra für ihre Anwendung (in Bezug auf Zeitserien) eignet, und ein grundlegendes Verständnis davon haben, was sie beim Entwurf beachten sollten.

// Sebastian Marsching Sebastian Marsching

ist geschäftsführender Gesellschafter der aquenos GmbH. Der Schwerpunkt seiner Arbeit liegt im Bereich Automatisierungssysteme und Prozessdatenverarbeitung. Mit dem Cassandra PV Archiver hat er eine Open-Source-Software entwickelt, die die Archivierung umfangreicher Prozessdaten in einer Apache-Cassandra-Datenbank ermöglicht.


l>