Zusammenfassung
Im Zeitalter von Big Data werden immense Informationsbestände aus unterschiedlichen Quellen gesammelt. Die Daten sind häufig unvollständig, unsicher und ungenau. Ein Beispiel hierfür ist das OpenStreetMap Projekt, bei dem Nutzer auf der ganzen Welt einmal mehr und einmal weniger „sauber“ bzw. vollständig Daten beisteuern. In diesem Beitrag wird gezeigt, ob sich diese Daten eignen um ein betriebswirtschaftliches Problem zu lösen. Ein konkretes Fallbeispiel verdeutlicht, wie gut Standortentscheidungen einer Fast Food Kette unter Anwendung fortgeschrittener datenanalytischer Verfahren, wie bspw. Künstlicher Neuronaler Netze, Entscheidungsbäume und Logit-Modelle, nachempfunden werden können. Als Grundlage dienen die Daten des OpenStreetMap Projekts. Im Konkreten geht es darum, potenzielle Filialstandorte hinsichtlich deren Güte mittels OpenStreetMap Daten zu klassifizieren und die prognostizierten Lokationen mit tatsächlichen Standortentscheidungen zu vergleichen. Dabei zeigt sich, dass die Daten des OpenStreetMap Projekts grundsätzlich für die Prognose von Standorten geeignet sind. Allerdings ist die Wahl des datenanalytischen Verfahrens von Bedeutung. Im vorliegenden Fall konnte mit Hilfe der Künstlichen Neuronalen Netze das beste Prognoseergebnis erzielt werden.
Abstract
In the age of big data, a huge amount of information is being collected from diverse sources. These data are often incomplete, uncertain, and imprecise. An excellent example is the OpenStreetMap project, where users across the whole world contribute data on a more or less precise and complete level. This article shows whether these data are suited to support management decisions. A real-world example illustrates the extent to which location decisions of a fast food restaurant chain may be reproduced by means of advanced data analytic techniques, such as neural networks, decision trees, and logit models. The data are retrieved form the OpenStreetMap project. The basic task deals with classifying potential locations of the fast food restaurant chain and comparing the predicted locations with the actual locations. We find that data based on the OpenStreetMap project are generally suited for forecasting locations. However, the choice of the data analytic technique is important. In the case under consideration, neural networks resulted in the best forecast.
Literatur
Agrawal P, Sarma AD, Ullman J, Widom J (2010) Foundations of uncertain-data integration. Proceedings VLDB Endowment 3(1):1080–1090. https://doi.org/10.14778/1920841.1920976
Backhaus K, Erichson B, Plinke W, Weiber R (2016) Multivariate Analysemethoden. Springer Gabler, Berlin, Heidelberg
Chang RM, Kauffman RJ, Kwon Y (2014) Understanding the paradigm shift to computational social science in the presence of big data. Decis Support Syst 63:67–80. https://doi.org/10.1016/j.dss.2013.08.008
Cleve J, Lämmel U (2014) Data mining. De Gruyter, Oldenbourg, Müchen
Fasel D, Meier A (2016) Big Data: Grundlagen, Systeme und Nutzungspotenziale. Springer Vieweg, Wiesbaden
Haklay M (2010) How good is volunteered geographical information? A comparative study of openstreetmap and ordnance survey datasets. Environ Plann B Plann Des 37(4):682–703. https://doi.org/10.1068/b35097
Hess RL, Rubin RS, West LA (2004) Geographic information systems as a marketing information system technology. Decis Support Syst 38(2):197–212. https://doi.org/10.1016/S0167-9236(03)00102-7
Heuberger-Götsch O (2016) Der Wert von Daten aus juristischer Sicht am Beispiel des Profiling. In: Fasel D, Meier A (Hrsg) Big Data: Grundlagen, Systeme und Nutzungspotenziale. Springer, Wiesbaden, S 83–105
Kellner F (2016) Analyse logistischer Systeme mittels Online-Navigationsdiensten – Bessere Planung auf Grundlage besserer Daten. HMD Prax Wirtschaftsinform 53(6):894–905. https://doi.org/10.1365/s40702-016-0245-6
Kisilevich S, Keim D, Rokach L (2013) A GIS-based decision support system for hotel room rate estimation and temporal price prediction: the hotel brokers’ context. Decis Support Syst 54(2):1119–1133. https://doi.org/10.1016/j.dss.2012.10.038
Li H, Yu B, Zhou D (2013) Error rate analysis of labeling by crowdsourcing. http://arxiv.org/pdf/1307.2674. Zugegriffen: 20. Jan. 2018
Little RJA, Rubin DB (2002) Statistical analysis with missing data. Wiley, Hoboken
Meier A, Kaufmann M (2016) SQL- & NoSQL-Datenbanken. Springer, Heidelberg, Berlin
Neis P, Goetz M, Zipf A (2012) Towards automatic vandalism detection in openstreetmap. ISPRS Int J Geoinf 1(3):315–332. https://doi.org/10.3390/ijgi1030315
Ngai EWT, Xiu L, Chau DCK (2009) Application of data mining techniques in customer relationship management: a literature review and classification. Expert Syst Appl 36(2):2592–2602. https://doi.org/10.1016/j.eswa.2008.02.021
Pick JB, Turetken O, Deokar AV, Sarkar A (2017) Location analytics and decision support: reflections on recent advancements, a research framework, and the path ahead. Decis Support Syst 99:1–8. https://doi.org/10.1016/j.dss.2017.05.016
Ripley BD (2002) Pattern recognition and neural networks. Cambridge University Press, Cambridge
Roick O, Neis P, Zipf A (2011) Volunteered Geographic Information – Datenqualität und Nutzungspotentiale am Beispiel von OpenStreetMap. http://oliverroick.de/publications/2011/DGfK_VGI.pdf. Zugegriffen: 20. Jan. 2018
Schröder N, Hruschka H (2012) Response measurement and optimization of direct mailings. J Betriebswirtsch 62(3):261–308. https://doi.org/10.1007/s11301-012-0088-3
Stockinger K, Stadelmann T (2014) Data Science für Lehre, Forschung und Praxis. HMD Prax Wirtschaftsinform 51(4):469–479. https://doi.org/10.1365/s40702-014-0040-1
Venables WN, Ripley BD (2002) Modern applied statistics with S. Springer, New York
Zielstra D, Zipf A (2010) A comparative study of proprietary geodata and volunteered geographic information for Germany. http://www.geog.uni-heidelberg.de/md/chemgeo/geog/gis/agile2010_zielstra_zipf_final5.pdf. Zugegriffen: 20. Jan. 2018
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Kellner, F., Schröder, N. Data Mining mit unsicheren Daten. HMD 55, 601–613 (2018). https://doi.org/10.1365/s40702-018-0419-5
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1365/s40702-018-0419-5