Zusammenfassung
Dublettenerkennung befasst sich mit dem Problem, verschiedene Datenbankrepräsentationen des gleichen Objekts zu identifizieren. Bisherige Algorithmen zur Dublettenerkennung ignorieren den Kontext, in dem sich die Daten befinden. Dabei enthält dieser oftmals weitere nützliche Daten, die das Ergebnis positiv beeinflussen können. In diesem Beitrag stellen wir Algorithmen zur Dublettenerkennung vor, die Beziehungen innerhalb der Daten ausnutzen.
Abstract
Duplicate detection consists in identifying multiple, different data base representations of a same real-world object. State-of-the-art duplicate detection systems usually concentrate on identifying duplicates in a single relational table and thereby ignore that the data may exist in a larger context that, when considered, can significantly improve the performance of duplicate detection. In this paper, we present algorithms that exploit relationships that exist in the data.
© by Oldenbourg Wissenschaftsverlag, München, Germany