TP5.2: Geospatial Big Data Exploration

Teilprojektleitung
Prof. Alfons Kemper, Ph.D.
Bearbeiter
Varun Pandey


Als erstes Ergebnis dieses Projekts ist das System HyPerSpace zu nennen, das auf der ACM SIGMOD 2016 in San Francisco vorgestellt wurde [1]. HyPerSpace erlaubt es, Taxifahrten in New York City (theoretisch jeden belie­bigen Geo-annotierten Datensatz) zu analysieren. Zusätzlich zur Datenbankkomponente wurde eine webbasierte Benutzeroberfläche entwickelt, die eine interaktive Auswertung von Geodaten ermöglicht (siehe Abb. 1). Dadurch, dass wir keine Indexstrukturen vor­berechnen, sind wir in der Lage, die Daten unmittelbar nach ihrem Eintreffen in der Datenbank zu analysieren. Der Nutzer kann neben vorgefertigten Anfragen (z.B. Statistiken pro NYC Neighborhood) jede beliebige SQL-Anfrage auf den Daten ausführen. Unsere Demo wurde mit einem SIGMOD 2016 Best Demonstration Award ausgezeichnet. In zukünftiger Arbeit gilt es nun, die Performanz des Systems weiter zu optimieren, um noch größere Datenmengen in nahezu Echtzeit auswerten zu können.

HyPerMaps
Abbildung 1: HyPerMaps


Quellen
[1] Pandey, V., Kipf, A., Vorona, D., Mühlbauer, T., Neumann, T. and Kemper, A., 2016, June. High-Performance Geospatial Analytics in HyPerSpace. In Proceedings of the 2016 International Conference on Management of Data (pp. 2145-2148). ACM.
[2] Aji, A., Wang, F., Vo, H., Lee, R., Liu, Q., Zhang, X. and Saltz, J., 2013. Hadoop gis: a high performance spatial data warehousing system over mapreduce. Proceedings of the VLDB Endowment, 6(11), pp.1009-1020.
[3] A. Eldawy and M. F. Mokbel. Spatialhadoop: A mapreduce framework for spatial data. In ICDE, 2015.
[4] You, S., Zhang, J. and Gruenwald, L., 2015, September. Spatial join query processing in cloud: Analyzing design choices and performance comparisons. In Parallel Processing Workshops (ICPPW), 2015 44th International Conference on (pp. 90-97). IEEE.
[5] Yu, J., Wu, J. and Sarwat, M., 2015, November. Geospark: A cluster computing framework for processing large-scale spatial data. In Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems (p. 70). ACM.
[6] Xie, D., Li, F., Yao, B., Li, G., Zhou, L. and Guo, M., 2016, June. Simba: Efficient in-memory spatial analytics. In Proceedings of the 2016 International Conference on Management of Data (pp. 1071-1085). ACM.