Zusammenfassung
Die Analyse von historischen Fahrtdaten bietet Bahnbetreibern die Möglichkeit Zusammenhänge zwischen Verspätungen zu erkennen, deren Ursachen besser zu verstehen und geeignete Maßnahmen zu treffen. Die gewonnenen Informationen können zum Beispiel verwendet werden, um robustere Fahrpläne zu erstellen und dadurch die Pünktlichkeit im Schienenverkehr zu verbessern. Damit die Daten ausgewertet werden können, müssen sie allerdings in einem konsistenten Zustand (das heißt vollständig und korrekt) vorliegen. Da Infrastrukturdaten sowie Soll- und Ist-Zeiten von Zugfahrten jeweils in verschiedenen Systemen erfasst werden, müssen die Daten zunächst vereinheitlicht und zusammengeführt werden. Dieser Beitrag stellt eine datengetriebene Infrastruktur-Modellierung und Integration von historischen Zugfahrtdaten vor. Dabei werden Daten der Deutschen Bahn aus einem Fahrplanjahr verwendet. Das Ziel besteht darin, systembedingte Inkonsistenzen bei der Zusammenführung der Daten zu beseitigen und die Integrität der Daten für weitere Analysen und Optimierungsansätze sicherzustellen. Außerdem werden Fahrtverläufe vereinheitlicht, damit diese besser miteinander verglichen werden können. In diesem Zusammenhang werden die Daten in ein JSON-Format transformiert, wodurch ein Vergleich von Soll- und Ist-Zeiten an allen Messpunkten möglich ist. Die Ergebnisse dieser Arbeit zeigen, dass in einem Datensatz mit 27 Mio. Zugfahrten 7 % aller Fahrten zunächst nicht für eine pauschale Weiterverarbeitung geeignet waren, weil zum Beispiel fehlende oder inkonsistente Werte vorlagen. Etwa 70 % der betroffenen Fahrten konnten automatisiert vervollständigt und harmonisiert werden. Dadurch wurde ein integrierter und bereinigter Datensatz erstellt, der als Grundlage zur Fahrplanoptimierung oder zur Analyse von Zugverspätungen verwendet werden kann.
Abstract
The analysis of historical trip data offers railway operators the opportunity to identify relations between delays, to better understand their causes and to take appropriate action. The information obtained can be used, for example, to create more robust timetables and thus improve punctuality in rail transport. However, for the data to be evaluated, it must be in a consistent state (i. e. complete and correct). Since infrastructure data as well as planned and actual times of train movements are recorded in different systems, the data must first be standardized and merged. This paper presents a data-driven approach for infrastructure modelling and integration of historical train running data. Data from Deutsche Bahn from one timetable year is used. The aim is to eliminate system-related inconsistencies in the consolidation of the data and to ensure the integrity of the data for further analyses and optimization approaches. In addition, the train trips are standardized so that they can be better compared with each other. In this context, the data will be transformed into a JSON format, enabling a comparison of planned and actual event times at all measuring points. The results of this work show that in a data set with 27 million train journeys, 7% of all journeys were initially not suitable for further processing because, for example, missing or inconsistent values were present. Approximately 70% of the affected trips could be completed and harmonized automatically. This resulted in the creation of an integrated and cleansed data set that can be used as a basis for timetable optimization or for the analysis of train delays.
Literatur
Berger A, Gebhardt A, Müller-Hannemann M, Ostrowski M (2011) Stochastic delay prediction in large train networks. In: Caprara A, Kontogiannis S (Hrsg) 11th Workshop on algorithmic approaches for transportation modelling, optimization, and systems, S 100–111 https://doi.org/10.4230/OASIcs.ATMOS.2011.100
Cacchiani V, Caprara A, Toth P (2008) A column generation approach to train timetabling on a corridor. 4OR Q J Oper Res 6(2):125–142. https://doi.org/10.1007/s10288-007-0037-5
Caprara A, Fischetti M, Toth P (2002) Modeling and solving the train timetabling problem. Oper Res 50(5):851–916. https://doi.org/10.1287/opre.50.5.851.362
Ester M, Sander J (2000) Knowledge Discovery in Databases: Techniken und Anwendungen. Springer, Berlin, Heidelberg
Goverde R (2010) A delay propagation algorithm for large-scale railway traffic networks. Transp Res Part C Emerg Technol 18(3):269–287. https://doi.org/10.1016/j.trc.2010.01.002
Hauck F, Kliewer N (2019) A data-driven optimization approach to improve railway punctuality. Oper Res Proc 2018 (Im Druck). https://doi.org/10.1007/978-3-030-18500-8
Jacobs J (2003) Rechnerunterstützte Konfliktermittlung und Entscheidungsunterstützung bei der Disposition des Zuglaufs. Rheinisch-Westfälische Technische Hochschule, Aachen (Dissertation)
Nachtigall K, Opitz J (2008) Solving periodic timetable optimisation problems by modulo simplex calculations. In: Fischetti M, Widmayer P (Hrsg) 8th Workshop on algorithmic approaches for transportation modeling, optimization, and systems (ATMOS’08) https://doi.org/10.4230/OASIcs.ATMOS.2008.1588
Oneto L, Fumeo E et al (2018) Train delay prediction systems: a big data perspective. Big Data Res 11:54–64. https://doi.org/10.1016/j.bdr.2017.05.002
Peeters L, Kroon L (2001) A cycle based optimization model for the cyclic railway timetabling problem. In: Voß S, Daduna JR (Hrsg) Computer-aided scheduling of public transport. Springer, Berlin, Heidelberg https://doi.org/10.1007/978-3-642-56423-9_16
Van Buuren S, Groothuis-Oudshoorn K (2011) Mice: multivariat imputation by chained equations in r. J Stat Softw 45(3):1–67. https://doi.org/10.18637/jss.v045.i03
Wirth R, Hipp J (2000) CRISP-DM: Towards a standard process model for data mining. In: Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining, S 29–39
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Hauck, F., Morgenstern, S. & Kliewer, N. Big Data Analytics im Bahnverkehr. HMD 56, 1041–1052 (2019). https://doi.org/10.1365/s40702-019-00524-7
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1365/s40702-019-00524-7