Durch die rasanten Entwicklungen im Bereich Big Data ist die Vielfalt an Systemen zunehmend unübersichtlich. Für Anwender ist es dadurch nahezu unmöglich einzuschätzen, welches Framework für einen Anwendungsfall geeignet ist und welche Performance zu erwarten ist bzw. wie ein System dimensioniert werden sollte. Benchmarks helfen bei der Beantwortung dieser Fragen, da sie vorgegebene Anwendungsfälle abprüfen und den zu erwartenden Datendurchsatz ermitteln können. Während im Datenbankbereich seit Jahrzehnten etablierte Benchmarks existieren, sind sie im Big-Data-Bereich noch nicht universell umgesetzt.
Dieser Vortrag gibt einen Überblick über die aktuellen Entwicklungen im Bereich Big Data Benchmarking. Besonderes Augenmerk wird auf die aktuellen Standardisierungsprojekte wie TPCx-HS und BigBench und deren Anwendungsfelder gelegt. Im weiteren werden Techniken zur Generierung großer Datenmengen für das Testen von Big-Data-Systemen erläutert.
In diesem Vortrag arbeitet der Referent diesen Konflikt heraus und zeigt Strategien auf, wie eine Balance von Skalierbarkeit und Konsistenz zu erzielen ist.
Skills
Basiswissen zu Big-Data-Systemen und Technologien.
Lernziele
Die Session bietet einen Überblick zu dem Thema Big Data Benchmarking, es werden existierende Benchmarks, Standardisierungsprojekte und der aktuelle Stand der Forschung im Bereich Benchmarking und Datengenerierung für Big-Data-Systeme präsentiert.
// Referent
// Michael Frank
ist CTO der bankmark UG (haftungsbeschränkt). Er hat mehrere Standard-Benchmarks für Datenbanken und Big-Data-Systeme aktiv mit entwickelt und ist Kernentwickler des Parallel Data Generation Framework, einem Datengenerator für sehr große, realistische Datensätze. Durch seine Arbeit am BigBench Big Data Benchmark hat er einen guten Überblick über die Reife und die Performance aktueller Big Data Analytics Frameworks.