Dublettenerkennung unter Berücksichtigung von Datenabhängigkeiten Duplicate Detection Exploiting Data Relationships

Melanie Herschel

doi:10.1524/itit.2009.0546

Published by De Gruyter Oldenbourg September 25, 2009

Dublettenerkennung unter Berücksichtigung von Datenabhängigkeiten Duplicate Detection Exploiting Data Relationships

Melanie Herschel

From the journal it - Information Technology

https://doi.org/10.1524/itit.2009.0546

Showing a limited preview of this publication:

Zusammenfassung

Dublettenerkennung befasst sich mit dem Problem, verschiedene Datenbankrepräsentationen des gleichen Objekts zu identifizieren. Bisherige Algorithmen zur Dublettenerkennung ignorieren den Kontext, in dem sich die Daten befinden. Dabei enthält dieser oftmals weitere nützliche Daten, die das Ergebnis positiv beeinflussen können. In diesem Beitrag stellen wir Algorithmen zur Dublettenerkennung vor, die Beziehungen innerhalb der Daten ausnutzen.

Abstract

Duplicate detection consists in identifying multiple, different data base representations of a same real-world object. State-of-the-art duplicate detection systems usually concentrate on identifying duplicates in a single relational table and thereby ignore that the data may exist in a larger context that, when considered, can significantly improve the performance of duplicate detection. In this paper, we present algorithms that exploit relationships that exist in the data.

Keywords: duplication detection; algorithms; performance; data quality; data integration

^* Correspondence address: Universität Tübingen, Wilhelm-Schickard-Institut für Informatik, Sand 13, Lehrstuhl für Datenbanksysteme, 72076 Tübingen, Deutschland, melanie.herschel@gmx.de

Published Online: 2009-09-25

Published in Print: 2009-07

Dublettenerkennung unter Berücksichtigung von Datenabhängigkeiten Duplicate Detection Exploiting Data Relationships

Zusammenfassung

Abstract

Journal and Issue

Articles in the same Issue