Structural preparation of raw data files

Strukturelle Aufbereitung von unverarbeiteten Dateien

  • Data preparation stands as a cornerstone in the landscape of data science workflows, commanding a significant portion—approximately 80%—of a data scientist's time. The extensive time consumption in data preparation is primarily attributed to the intricate challenge faced by data scientists in devising tailored solutions for downstream tasks. This complexity is further magnified by the inadequate availability of metadata, the often ad-hoc nature of preparation tasks, and the necessity for data scientists to grapple with a diverse range of sophisticated tools, each presenting its unique intricacies and demands for proficiency. Previous research in data management has traditionally concentrated on preparing the content within columns and rows of a relational table, addressing tasks, such as string disambiguation, date standardization, or numeric value normalization, commonly referred to as data cleaning. This focus assumes a perfectly structured input table. Consequently, the mentioned data cleaning tasks can be effectively appliedData preparation stands as a cornerstone in the landscape of data science workflows, commanding a significant portion—approximately 80%—of a data scientist's time. The extensive time consumption in data preparation is primarily attributed to the intricate challenge faced by data scientists in devising tailored solutions for downstream tasks. This complexity is further magnified by the inadequate availability of metadata, the often ad-hoc nature of preparation tasks, and the necessity for data scientists to grapple with a diverse range of sophisticated tools, each presenting its unique intricacies and demands for proficiency. Previous research in data management has traditionally concentrated on preparing the content within columns and rows of a relational table, addressing tasks, such as string disambiguation, date standardization, or numeric value normalization, commonly referred to as data cleaning. This focus assumes a perfectly structured input table. Consequently, the mentioned data cleaning tasks can be effectively applied only after the table has been successfully loaded into the respective data cleaning environment, typically in the later stages of the data processing pipeline. While current data cleaning tools are well-suited for relational tables, extensive data repositories frequently contain data stored in plain text files, such as CSV files, due to their adaptable standard. Consequently, these files often exhibit tables with a flexible layout of rows and columns, lacking a relational structure. This flexibility often results in data being distributed across cells in arbitrary positions, typically guided by user-specified formatting guidelines. Effectively extracting and leveraging these tables in subsequent processing stages necessitates accurate parsing. This thesis emphasizes what we define as the “structure” of a data file—the fundamental characters within a file essential for parsing and comprehending its content. Concentrating on the initial stages of the data preprocessing pipeline, this thesis addresses two crucial aspects: comprehending the structural layout of a table within a raw data file and automatically identifying and rectifying any structural issues that might hinder its parsing. Although these issues may not directly impact the table's content, they pose significant challenges in parsing the table within the file. Our initial contribution comprises an extensive survey of commercially available data preparation tools. This survey thoroughly examines their distinct features, the lacking features, and the necessity for preliminary data processing despite these tools. The primary goal is to elucidate the current state-of-the-art in data preparation systems while identifying areas for enhancement. Furthermore, the survey explores the encountered challenges in data preprocessing, emphasizing opportunities for future research and improvement. Next, we propose a novel data preparation pipeline designed for detecting and correcting structural errors. The aim of this pipeline is to assist users at the initial preprocessing stage by ensuring the correct loading of their data into their preferred systems. Our approach begins by introducing SURAGH, an unsupervised system that utilizes a pattern-based method to identify dominant patterns within a file, independent of external information, such as data types, row structures, or schemata. By identifying deviations from the dominant pattern, it detects ill-formed rows. Subsequently, our structure correction system, TASHEEH, gathers the identified ill-formed rows along with dominant patterns and employs a novel pattern transformation algebra to automatically rectify errors. Our pipeline serves as an end-to-end solution, transforming a structurally broken CSV file into a well-formatted one, usually suitable for seamless loading. Finally, we introduce MORPHER, a user-friendly GUI integrating the functionalities of both SURAGH and TASHEEH. This interface empowers users to access the pipeline's features through visual elements. Our extensive experiments demonstrate the effectiveness of our data preparation systems, requiring no user involvement. Both SURAGH and TASHEEH outperform existing state-of-the-art methods significantly in both precision and recall.show moreshow less
  • Die Datenaufbereitung ist ein wesentlicher Bestandteil von Data-Science-Workflows und nimmt einen beträchtlichen Teil - etwa 80% - der Zeit eines Datenwissenschaftlers in Anspruch. Der hohe Zeitaufwand für die Datenaufbereitung ist in erster Linie auf die komplizierte Herausforderung zurückzuführen, der sich Datenwissenschaftler bei der Entwicklung maßgeschneiderter Lösungen für nachgelagerte Aufgaben gegenübersehen. Diese Komplexität wird noch verstärkt durch die unzureichende Verfügbarkeit von Metadaten, den oft ad-hoc-Charakter der Aufbereitungsaufgaben und die Notwendigkeit für Datenwissenschaftler, sich mit einer Vielzahl von hochentwickelten Tools auseinanderzusetzen, von denen jedes seine eigenen Schwierigkeiten und Anforderungen an dessen Beherrschung aufweist. Bisherige Forschung im Bereich der Datenverwaltung konzentriert sich traditionell auf die Aufbereitung der Inhalte innerhalb der Spalten und Zeilen einer relationalen Tabelle und befasst sich mit Aufgaben wie der Disambiguierung von Zeichenketten, derDie Datenaufbereitung ist ein wesentlicher Bestandteil von Data-Science-Workflows und nimmt einen beträchtlichen Teil - etwa 80% - der Zeit eines Datenwissenschaftlers in Anspruch. Der hohe Zeitaufwand für die Datenaufbereitung ist in erster Linie auf die komplizierte Herausforderung zurückzuführen, der sich Datenwissenschaftler bei der Entwicklung maßgeschneiderter Lösungen für nachgelagerte Aufgaben gegenübersehen. Diese Komplexität wird noch verstärkt durch die unzureichende Verfügbarkeit von Metadaten, den oft ad-hoc-Charakter der Aufbereitungsaufgaben und die Notwendigkeit für Datenwissenschaftler, sich mit einer Vielzahl von hochentwickelten Tools auseinanderzusetzen, von denen jedes seine eigenen Schwierigkeiten und Anforderungen an dessen Beherrschung aufweist. Bisherige Forschung im Bereich der Datenverwaltung konzentriert sich traditionell auf die Aufbereitung der Inhalte innerhalb der Spalten und Zeilen einer relationalen Tabelle und befasst sich mit Aufgaben wie der Disambiguierung von Zeichenketten, der Standardisierung von Datumsangaben oder der Normalisierung numerischer Werte, die gemeinhin unter dem Begriff der Datenbereinigung zusammengefasst werden. Dieser Forschungsschwerpunkt geht von einer perfekt strukturierten Eingabetabelle aus. Folglich können die genannten Datenbereinigungsaufgaben erst dann effektiv durchgeführt werden, wenn die Tabelle erfolgreich in die entsprechende Datenbereinigungsumgebung geladen wurde, was in der Regel in den späteren Phasen der Datenverarbeitungspipeline geschieht. Während aktuelle Datenbereinigungstools gut für relationale Tabellen geeignet sind, enthalten große Datenrrepositories aufgrund ihres flexiblen Standards häufig Daten, die in reinen Textdateien, wie z. B. CSV-Dateien, gespeichert sind. Folglich weisen diese Dateien oft Tabellen mit einem flexiblen Layout von Zeilen und Spalten auf, denen eine relationale Struktur fehlt. Diese Flexibilität führt häufig dazu, dass die Daten beliebig über die einzelnen Zellen der Tabelle verteilt sind, was in der Regel durch benutzerdefinierte Formatierungsrichtlinien gesteuert wird. Um diese Tabellen effektiv zu extrahieren und in den nachgelagerten Verarbeitungsschritten nutzen zu können, ist ein präzises Parsen erforderlich. In dieser Arbeit wird der Schwerpunkt auf das gelegt, was wir als “Struktur” einer Datendatei definieren - die grundlegenden Zeichen innerhalb einer Datei, die für das Parsen und Verstehen ihres Inhalts wesentlich sind. Die vorliegende Arbeit konzentriert sich auf die ersten Stufen der Datenvorverarbeitung und behandelt zwei entscheidende Aspekte: Das Verstehen des strukturellen Layouts einer Tabelle in einer Rohdatendatei und das automatische Erkennen und Korrigieren von strukturellen Problemen, die das Parsen der Datei erschweren könnten. Auch wenn sich diese Probleme nicht direkt auf den Inhalt der Tabelle auswirken, stellen sie eine große Herausforderung beim Parsen der Tabelle in der Datei dar. Unser erster Beitrag besteht aus einem umfassenden Überblick über kommerziell verfügbare Datenaufbereitungstools. In dieser Übersicht werden ihre besonderen Merkmale, die fehlenden Merkmale und die Notwendigkeit einer vorläufigen Datenverarbeitung trotz dieser Werkzeuge eingehend untersucht. Das primäre Ziel ist es, den aktuellen Stand der Technik bei den Datenaufbereitungssystemen zu ermitteln und gleichzeitig Bereiche zu identifizieren, die verbessert werden können. Darüber hinaus werden die bei der Datenvorverarbeitung aufgetretenen Herausforderungen untersucht und Möglichkeiten für künftige Forschung und Weiterentwicklungen aufgezeigt. Als Nächstes schlagen wir eine neuartige Datenaufbereitungspipeline zur Erkennung und Korrektur von strukturellen Fehlern vor. Ziel dieser Pipeline ist es, die Nutzer in der anfänglichen Vorverarbeitungsphase zu unterstützen, indem das korrekte Laden ihrer Daten in ihre bevorzugten Systeme sichergestellt wird. Unser Ansatz beginnt mit der Einführung von SURAGH, einem unüberwachten System, das eine musterbasierte Methode verwendet, um dominante Muster innerhalb einer Datei zu identifizieren, unabhängig von externen Informationen wie Datentypen, Zeilenstrukturen oder Schemata. Durch die Identifizierung von Abweichungen vom vorherrschenden Muster werden fehlerhafte Zeilen erkannt. Anschließend sammelt unser Strukturkorrektursystem, TASHEEH, die identifizierten fehlerhaften Zeilen zusammen mit den dominanten Mustern und verwendet eine neuartige Mustertransformationsalgebra, um Fehler automatisch zu korrigieren. Unsere Pipeline dient als End-to-End-Lösung, die eine strukturell fehlerhafte CSV-Datei in eine gut formatierte Datei umwandelt, die in der Regel für ein nahtloses Laden geeignet ist. Schließlich stellen wir MORPHER vor, eine benutzerfreundliche GUI, die die Funktionen von SURAGH und TASHEEH integriert. Mit Hilfe von visuellen Elementen ermöglicht diese Schnittstelle den Benutzern den Zugriff auf die Funktionen der Pipeline. Unsere umfangreichen Experimente zeigen die Effektivität unserer Datenaufbereitungssysteme, die kein Eingreifen des Benutzers erfordern. Sowohl SURAGH als auch TASHEEH übertreffen bestehende State-of-the-Art-Methoden in den beiden Metriken Precision und Recall deutlich.show moreshow less

Download full text files

  • SHA-512:6d3fc6103f5f65eea0300c9b3b75a293c3255849d79bfc8259aad0da277a9cb937b22b9b2be87060f327f5f478e5a162f2385c9895f8001a1ac9ecdee5393aac

Export metadata

Metadaten
Author details:Mazhar HameedORCiDGND
URN:urn:nbn:de:kobv:517-opus4-655678
DOI:https://doi.org/10.25932/publishup-65567
Reviewer(s):Felix NaumannORCiDGND, Holger SchwarzGND, Giovanni SimoniniORCiD
Supervisor(s):Felix Naumann
Publication type:Doctoral Thesis
Language:English
Year of first publication:2024
Publication year:2024
Publishing institution:Universität Potsdam
Granting institution:Universität Potsdam
Date of final exam:2024/08/09
Release date:2024/09/13
Tag:Datenaufbereitung; Datenintegration; Datenqualität; Datenverwaltung
data integration; data management; data preparation; data quality
Number of pages:xiv, 117
RVK - Regensburg classification:ST 265, ST 274
Organizational units:Digital Engineering Fakultät / Hasso-Plattner-Institut für Digital Engineering GmbH
DDC classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
MSC classification:68-XX COMPUTER SCIENCE (For papers involving machine computations and programs in a specific mathematical area, see Section {04 in that areag 68-00 General reference works (handbooks, dictionaries, bibliographies, etc.)
License (German):License LogoCC-BY-NC-SA - Namensnennung, nicht kommerziell, Weitergabe zu gleichen Bedingungen 4.0 International
Accept ✔
This website uses technically necessary session cookies. By continuing to use the website, you agree to this. You can find our privacy policy here.