Zusammenfassung.
Wir untersuchen Techniken des Text-Retrievals mit relationalen Datenbanken. Den Tests zum Booleschen Retrieval liegen reale Bibliotheksdaten und Bibliothekarsanfragen zugrunde. Es werden drei Realisierungen mittels SQL miteinander verglichen, von denen der Nested Loops Join mit vorsortierter Wortfolge am besten abschneidet. Dessen Effizienz beruht auf den signifikant unterschiedlichen Vorkommenshäufigkeiten der Anfragewörter. Um diese Beobachtung auch bei einer Implementierung mit komprimierten Bitlisten effizienzsteigernd zu nutzen, wird eine zusätzliche Zugriffsstruktur für Lookup-Operationen in den Bitlisten aufgebaut. Im Gegensatz zum Booleschen Retrieval zeigt sich beim Retrieval mit Ranking, daß eine Ergebnisberechnung mittels eines geschlossenen SQL-Ausdrucks einer Lösung, die im Anwendungsprogramm die invertierten Listen durchläuft und zu einem Ranking kombiniert, hinsichtlich der Effizienz unterlegen ist. Als Grundlage für Abbruchheuristiken wird hier außerdem eine Indexstruktur aufgebaut, die den Zugriff auf invertierte Listen sortiert nach Within-Document-Frequencies erlaubt.
Abstract.
Our paper discusses techniques for text retrieval with relational database systems. The experiments for Boolean retrieval, which are based on real-life library data and librarians' queries, compare three alternative SQL realizations. It turns out that a nested loops join with pre-sorted word order is most efficient because keywords have significantly different frequency values. This observation can also be used to enhance a realization based on compressed bit lists. An additional access structure is needed that supports lookup operations within bit sequences. In the context of retrieval with ranking, however, results are best computed under the regime of the application program. A cursor-based traversal and combination of inverted lists is more efficient than a closed SQL query. Further performance improvements benefit from an additional index which supports access to inverted lists in order of decreasing within-document-frequencies.
Explore related subjects
Discover the latest articles and news from researchers in related subjects, suggested using machine learning.Author information
Authors and Affiliations
Additional information
Eingegangen am 12. März 1998 / Angenommen am 31. Oktober 1998
Rights and permissions
About this article
Cite this article
Kalinski, J. Text-Retrieval mit einem relationalen Datenbank-Management-System. Informatik Forsch Entw 14, 36–45 (1999). https://doi.org/10.1007/s004500050122
Issue Date:
DOI: https://doi.org/10.1007/s004500050122