Free Movement of Data with Apache Arrow
Die Landschaft der Big-Data-Systeme ist ständig am Wachsen. Es entstehen kontinuierlich neue Tools für Data Warehousing, Data Engineering und Machine Learning. Jedes dieser Felder hat sein eigenes Ökosystem und bevorzugte Programmiersprache. Jedoch müssen diese Bereiche alle zusammenarbeiten, um ein erfolgreiches Datenprodukt bauen und betreiben zu können. Apache Arrow setzt hier an und definiert einen Standard und Bibliotheken für den Datenaustausch, um diese System hocheffizient zu verknüpfen. Ein aktuelles Beispiel der Nutzung von Arrow ist die Anwendung in Apache Spark, um das in Scala geschriebene System mit effizienten Funktion aus Python mit Pandas erweiterbar zu machen.
Vorkenntnisse
Als Hörer dieses Vortrags sollte man einen groben Überblicken von Teilen der Big-Data- und AI-Lösungen haben. Um die im Vortrag angesprochenen Probleme zu verstehen, bedarf es keiner tiefen Kenntnis eines spezifischen Produkts, sondern die Bewusstheit, dass die Big-Data-Landschaft technisch nicht homogen ist.
Lernziele
Besucher dieses Vortrages sollen die akuten Probleme technischer Natur in der Zusammenarbeit der verschiedenen Datenökosystemen verstehen. Weiterhin wird aufgezeigt, wie Apache Arrow einen Ansatz bietet, Systeme verschiedener Technologien zu verbinden, sodass auch verschiedene Bereiche in der Entwicklung eines gesamten Datenproduktes effizient zusammenarbeiten können.