Skip to main content
Log in

Text-Retrieval mit einem relationalen Datenbank-Management-System

  • Regulärer Beitrag
  • Published:
Informatik Forschung und Entwicklung

Zusammenfassung.

Wir untersuchen Techniken des Text-Retrievals mit relationalen Datenbanken. Den Tests zum Booleschen Retrieval liegen reale Bibliotheksdaten und Bibliothekarsanfragen zugrunde. Es werden drei Realisierungen mittels SQL miteinander verglichen, von denen der Nested Loops Join mit vorsortierter Wortfolge am besten abschneidet. Dessen Effizienz beruht auf den signifikant unterschiedlichen Vorkommenshäufigkeiten der Anfragewörter. Um diese Beobachtung auch bei einer Implementierung mit komprimierten Bitlisten effizienzsteigernd zu nutzen, wird eine zusätzliche Zugriffsstruktur für Lookup-Operationen in den Bitlisten aufgebaut. Im Gegensatz zum Booleschen Retrieval zeigt sich beim Retrieval mit Ranking, daß eine Ergebnisberechnung mittels eines geschlossenen SQL-Ausdrucks einer Lösung, die im Anwendungsprogramm die invertierten Listen durchläuft und zu einem Ranking kombiniert, hinsichtlich der Effizienz unterlegen ist. Als Grundlage für Abbruchheuristiken wird hier außerdem eine Indexstruktur aufgebaut, die den Zugriff auf invertierte Listen sortiert nach Within-Document-Frequencies erlaubt.

Abstract.

Our paper discusses techniques for text retrieval with relational database systems. The experiments for Boolean retrieval, which are based on real-life library data and librarians' queries, compare three alternative SQL realizations. It turns out that a nested loops join with pre-sorted word order is most efficient because keywords have significantly different frequency values. This observation can also be used to enhance a realization based on compressed bit lists. An additional access structure is needed that supports lookup operations within bit sequences. In the context of retrieval with ranking, however, results are best computed under the regime of the application program. A cursor-based traversal and combination of inverted lists is more efficient than a closed SQL query. Further performance improvements benefit from an additional index which supports access to inverted lists in order of decreasing within-document-frequencies.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Author information

Authors and Affiliations

Authors

Additional information

Eingegangen am 12. März 1998 / Angenommen am 31. Oktober 1998

Rights and permissions

Reprints and permissions

About this article

Cite this article

Kalinski, J. Text-Retrieval mit einem relationalen Datenbank-Management-System. Informatik Forsch Entw 14, 36–45 (1999). https://doi.org/10.1007/s004500050122

Download citation

  • Issue Date:

  • DOI: https://doi.org/10.1007/s004500050122

Navigation