Big Data Benchmarking und Generierung großer Testdaten
Durch die rasanten Entwicklungen im Bereich Big Data ist die Vielfalt an Systemen zunehmend unübersichtlich. Für Anwender ist es dadurch nahezu unmöglich einzuschätzen, welches Framework für einen Anwendungsfall geeignet ist und welche Performance zu erwarten ist bzw. wie ein System dimensioniert werden sollte. Benchmarks helfen bei der Beantwortung dieser Fragen, da sie vorgegebene Anwendungsfälle abprüfen und den zu erwartenden Datendurchsatz ermitteln können. Während im Datenbankbereich seit Jahrzehnten etablierte Benchmarks existieren, sind sie im Big-Data-Bereich noch nicht universell umgesetzt.
Dieser Vortrag gibt einen Überblick über die aktuellen Entwicklungen im Bereich Big Data Benchmarking. Besonderes Augenmerk wird auf die aktuellen Standardisierungsprojekte wie TPCx-HS und BigBench und deren Anwendungsfelder gelegt. Im weiteren werden Techniken zur Generierung großer Datenmengen für das Testen von Big-Data-Systemen erläutert.
In diesem Vortrag arbeitet der Referent diesen Konflikt heraus und zeigt Strategien auf, wie eine Balance von Skalierbarkeit und Konsistenz zu erzielen ist.
Vorkenntnisse
Basiswissen zu Big-Data-Systemen und Technologien.
Lernziele
Die Session bietet einen Überblick zu dem Thema Big Data Benchmarking, es werden existierende Benchmarks, Standardisierungsprojekte und der aktuelle Stand der Forschung im Bereich Benchmarking und Datengenerierung für Big-Data-Systeme präsentiert.