TP5.1: Integrationsplattform für temporale geographische Daten

Teilprojektleitung
Prof. Alfons Kemper, Ph.D.


Ziel des Teilprojektes 5.1 ist die prototypische Umsetzung einer Data Integration und Communication Platform für geographische (geospatial) Daten mit temporalem (zeitlichen) Bezug. Mit derzeitigen Lösungen ist es nicht möglich, den Anforderung an das Datenmanagement, welche Industrie 4.0 sowie das Internet of Things (IoT) und hierbei insbesondere Connected Mobility-Sensoren mit sich bringen, gerecht zu werden. Auf Grund der zahlreichen Daten die das System aufnehmen muss (Big Data Volume) und der Geschwindigkeit mit der diese Daten ankommen (Big Data Velocity) werden hochperformante Ansätze benötigt. Zudem müssen diese Sensordaten mit transaktionalen Geschäftsdaten verknüpft werden können.

Für die Realisierung intelligenter Dienste ist es deshalb wünschenswert performante Anfragen zur Entscheidungsunterstützung auf diesem integrierten Datenbestand durchführen zu können. SAP-Gründer Hasso Plattner und Microsoft-Gründer Bill Gates haben diese Anforderung als ”information at your fingertips“ bezeichnet, und herausgestellt, dass diese Art von ”real world awareness“ dramatische Änderungen in Betriebsprozessen aber auch in persönlichen Entscheidungen in Bezug auf Mobilitätsplanungen (z.B. Stauvorhersagen) nach sich ziehen wird.

Der Prototyp basiert auf dem Hauptspeicher-DBMS HyPer, welches an der TU München entwickelt wird. Diese Arbeit adressiert zwei Charakteristiken von Connected Mobility Workloads: 1) Die Daten werden kontinuierlich produziert und 2) sie beinhalten geographische und temporale Attribute.

In einer ersten Studie [1] haben wir HyPer mit modernen Streamingsystemen wie Apache Flink verglichen. Als Beispiel diente eine Anwendung aus der Telekommunikationsbranche, die Analysen auf den sekundenaktuellen Metadaten aller Anrufe durchführt.

Analytic on Fast Data
Abbildung 1: Analytics on Fast Data: Komplexe Analysen auf aktuellen Daten


Wir haben dabei Unterschiede hinsichtlich der Performanz und der Bedienbarkeit der Systeme festgestellt und Lösungsansätze vorgeschlagen. Im weiteren Projektverlauf gilt es nun, diese Ansätze im Prototypen zu adressieren. Hierzu gehören dauerhafte Anfragen, Window-Funktionalitäten sowie eine entsprechende Erweiterung der SQL-Schnittstelle.

Quellen
Analytics on Fast Data: Main-Memory Database Systems versus Modern Streaming Systems (EDBT 2017)

Betreute studentische Abschlussarbeiten
“Analytics on Fast Data Using Modern Stream Processing Systems” – Jan Böttcher
“Efficient Geospatial Joins Using Specialized Radix Trees” – Raul Persa
“An Efficient Nearest Neighbor Join Algorithm for Lines and Points in Main Memory” – David Becher