TP5.1: Integrationsplattform für temporale geographische Daten

Teilprojektleitung
Prof. Alfons Kemper, Ph.D.


Ziel des Teilprojektes 5.1 ist die prototypische Umsetzung einer Data Integration und Communication Platform für geographische (geospatial) Daten mit temporalem (zeitlichen) Bezug. Mit derzeitigen Lösungen ist es nicht möglich, den Anforderung an das Datenmanagement, welche Industrie 4.0 sowie das Internet of Things (IoT) und hierbei insbesondere Connected Mobility-Sensoren mit sich bringen, gerecht zu werden. Auf Grund der zahlreichen Daten die das System aufnehmen muss (Big Data Volume) und der Geschwindigkeit mit der diese Daten ankommen (Big Data Velocity) werden hochperformante Ansätze benötigt. Zudem müssen diese Sensordaten mit transaktionalen Geschäftsdaten verknüpft werden können.

Für die Realisierung intelligenter Dienste ist es deshalb wünschenswert performante Anfragen zur Entscheidungsunterstützung auf diesem integrierten Datenbestand durchführen zu können. SAP-Gründer Hasso Plattner und Microsoft-Gründer Bill Gates haben diese Anforderung als ”information at your fingertips“ bezeichnet, und herausgestellt, dass diese Art von ”real world awareness“ dramatische Änderungen in Betriebsprozessen aber auch in persönlichen Entscheidungen in Bezug auf Mobilitätsplanungen (z.B. Stauvorhersagen) nach sich ziehen wird.

Der Prototyp basiert auf dem Hauptspeicher-DBMS HyPer, welches an der TU München entwickelt wird. Diese Arbeit adressiert zwei Charakteristiken von Connected Mobility Workloads: 1) Die Daten werden kontinuierlich produziert und 2) sie beinhalten geographische und temporale Attribute.

In einer ersten Studie [1] haben wir HyPer mit modernen Streamingsystemen wie Apache Flink verglichen. Als Beispiel diente eine Anwendung aus der Telekommunikationsbranche, die Analysen auf den sekundenaktuellen Metadaten aller Anrufe durchführt.

Analytic on Fast Data
Abbildung 1: Analytics on Fast Data: Komplexe Analysen auf aktuellen Daten


Wir haben dabei Unterschiede hinsichtlich der Performanz und der Bedienbarkeit der Systeme festgestellt und Lösungsansätze vorgeschlagen. Im weiteren Projektverlauf gilt es nun, diese Ansätze im Prototypen zu adressieren. Hierzu gehören dauerhafte Anfragen, Window-Funktionalitäten sowie eine entsprechende Erweiterung der SQL-Schnittstelle.

Publikationen
Analytics on Fast Data: Main-Memory Database Systems versus Modern Streaming Systems (EDBT 2017)
A Main-Memory Database for Future Connected Mobility Workloads (HPTS 2017)
Adaptive Geospatial Joins for Modern Hardware (arXiv)
Approximate Geospatial Joins with Precision Guarantees (ICDE 2018)

Betreute studentische Abschlussarbeiten
“Geospatial Query Processing on Compressed Points” – Jakob Meggendorfer (Bachelorarbeit)
“Distributed Geospatial Join Processing” – David Werner (Guided Research)
“Evaluation of the Google Cloud Spanner Database Service” – Nikita Tselousov (Guided Research)
“Design and Implementation of an Automated Weather Data Model Evaluation System” – Frederic Sauer (Bachelorarbeit)
“Evaluation of Approaches for Mapping GPS Traces to Trajectories on Road Networks” – Philipp Schlieker (Bachelorarbeit)
“An Efficient Nearest Neighbor Join Algorithm for Lines and Points in Main Memory” – David Becher (Masterarbeit)
“Efficient Geospatial Joins Using Specialized Radix Trees” – Raul Persa (Masterarbeit)
“Design and Optimization of a Streaming K-Means Algorithm” – Matthias Adams (Guided Research)
“Analytics on Fast Data Using Modern Stream Processing Systems” – Jan Böttcher (Masterarbeit)