Skip to content
Licensed Unlicensed Requires Authentication Published by De Gruyter Oldenbourg September 25, 2009

Dublettenerkennung unter Berücksichtigung von Datenabhängigkeiten Duplicate Detection Exploiting Data Relationships

  • Melanie Herschel

Zusammenfassung

Dublettenerkennung befasst sich mit dem Problem, verschiedene Datenbankrepräsentationen des gleichen Objekts zu identifizieren. Bisherige Algorithmen zur Dublettenerkennung ignorieren den Kontext, in dem sich die Daten befinden. Dabei enthält dieser oftmals weitere nützliche Daten, die das Ergebnis positiv beeinflussen können. In diesem Beitrag stellen wir Algorithmen zur Dublettenerkennung vor, die Beziehungen innerhalb der Daten ausnutzen.

Abstract

Duplicate detection consists in identifying multiple, different data base representations of a same real-world object. State-of-the-art duplicate detection systems usually concentrate on identifying duplicates in a single relational table and thereby ignore that the data may exist in a larger context that, when considered, can significantly improve the performance of duplicate detection. In this paper, we present algorithms that exploit relationships that exist in the data.


* Correspondence address: Universität Tübingen, Wilhelm-Schickard-Institut für Informatik, Sand 13, Lehrstuhl für Datenbanksysteme, 72076 Tübingen, Deutschland,

Published Online: 2009-09-25
Published in Print: 2009-07

© by Oldenbourg Wissenschaftsverlag, München, Germany

Downloaded on 28.4.2024 from https://www.degruyter.com/document/doi/10.1524/itit.2009.0546/html
Scroll to top button