Zusammenfassung
Der Beitrag beschreibt die allgemeine Konzeption einer automatischen, wörterbuchabhängigen Indexierung, wie sie in einem Projekt an der Technischen Hochschule Darmstadt verfolgt wird. Lösungen für Probleme, die im Rahmen der automatischen Indexierung unmittelbar die Verarbeitung von Texten betreffen, werden vorgestellt und diskutiert- sowie die dazu im Darmstädter Projekt angewandten Verfahren dargestellt. Aufgabe und Inhalt eines Wörterbuchs für automatische Indexierung werden umrissen. Verfahren, die aus Texten Daten zum Aufbau eines Wörterbuchs generieren, werden eingeordnet und exemplarisch vorgestellt, dabei wird auf typische Schwierigkeiten und Probleme eingegangen.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Anmerkungen
Die automatischen Systeme mit Freitextsuche über Stichwörter, die sich als Alternative zur manuellen Indexierung anbieten, vermindern nicht den Arbeitsaufwand, sondern verlagern ihn von der Indexierung zur Frageformulierung
Es handelt sich um ein Projekt im Rahmen des Förderungsprogramms “Information und Dokumentation„ der Bundesregierung
Als relevant werden all die Textwörter bezeichnet, die nicht in einer Stopwörterliste (Funktionswörter und ‘high -frequency-words’) enthalten sind
Wesentlich ist, daß die Zuteilung von nicht zutreffenden Deskriptoren vermieden wird. Da man annehmen kann, daß die von Homographen im Text ausgehenden (schwachen) Hinweise auf solche Deskriptoren nicht durch weitere (von anderen Texteigenschaften ausgehende) Hinweise verstärkt werden, wird die Relevanzbeschreibung dieser Deskriptoren nicht zur Zuteilung führen
Zur Differenzieruncr von Mehrwortgruppen in Fachausdrücke und sonstige Mehrwortgruppen s. Abschn. 3.3.1
Diese Form ist durch das Verfahren zur Gewinnung von Mehrwortgruppen für das Wörterbuch festgelegt
Unter Term ist ein Einzelwort oder eine Mehrwortgruppe zu verstehen.
Die Verwendung eines Terms im Titel ist ebenfalls eine (allerdings von syntaktischen Strukturen unabhängige) Form der Hervorhebung, die im Rahmen des Projekts verwertet wird.
Dazu gehören wesentlich auch Operationen zur Datensicherung und -Reparatur
Tabellenorientierte Anfrage- und Auswertungssprache für das Archivsystem
Bei FST handelt es sich um ein Versuchswörterbuch für das Fachgebiet Food Science and Technology.
Die genaue Kennzeichnung von Relationen bezüglich Herkunft (Material, Zeitraum) führt vorerst dazu, daß zwischen gleichen Terms oft mehrere gleichartige Relationen bestehen. Teil der Arbeit, an dem Wörterbuch ist es, solche Relationen zusammenzufassen
Beiträge dazu sind u.a. Ziel einer laufenden Diplomarbeit, in der das Begrenzerverfahren in einen Vergleich syntaktischer Verfahren einbezogen wird.
Fangmeyer, H.; Lustig, G.: The EURATOM automatic indexing projekt. S. 1310–1314 in: International Federation for Information Processing, IFIP. Congress 68, Edinburgh. North Holland, Amsterdam, 1969
Jaene, H.; Seelbach, D.: Maschinelle Extraktion von zusammengesetzten Ausdrücken aus englischen Fachtexten. (ZMD-A-29). Beuth Verlag, 1975
Knorz, G.: Struktur und Aufbau des Archivwörterbuchs für das Projekt “Wörterbuchentwicklung für automatisches Indexing„. Interner Bericht, (DV II 78–1, FB Informatik, TH Darmstadt
Knorz, G.: TA3, Tabellenorientierte Anfrage- und Auswertungssprache für das Archiv-System im Projekt “Wörterbuchentwicklung für automatisches Indexing„ — Sprachbeschreibung. (DV II 79–2), FB Informatik, TH Darmstadt
Knorz, G.: Das Konzept des Programmiersprachenkerns von TA3 -Darstellung eines deskriptiv orientierten Ansatzes —. In: Tagungsband für die GI-Fachtagung: “Programmiersprachen und Programmentwicklung„, Darmstadt, März 1980
Kragenings, R.: Statistische Relationen zwischen Textwörtern und Deskriptoren. (ZMD-A-25), Beuth Verlag, 1974
Kuhlen, R.: Experimentelle Morphologie in der Informationswissenschaft. Verlag Dokumentation, München, 1977
Lustig, G.: Methoden der automatischen Indexierung. S. 108–117 in Beiheft Nr. 20 “Sprachliche Ansätze im Informationsund Dokumentationsbereich„ (1970) der Nachrichten für Dokumentation
Lustig, G.: Probleme der Textverarbeitung bei der automatischen Indexierung. In Schanze, H. (Hrsg.): Literatur und Datenverarbeitung, Niemeyer, Tübingen, 1972
Lustig, G.: Ansätze einer realistischen automatischen Indexierung unter Verwendung statistischer Verfahren. In: Kuhlen, R. (Hrsg.): Datenbanken — Datenbasen- Netzwerke. Praxis des Information Retrieval Bd. 1, Verlag Dokumentation, München, 1979
Lustig, G.: Über die Entwicklung eines automatischen Indexie-rungssystems. In: Tagungsband für “Internationales Colloquium zur linguistischen und literarischen Datenverarbeitung„, Bonn, Dezember 1979
Projekt “Wörterbuchentwicklung für automatisches Indexing„. Sachbericht 1978. (DV II 78–3), FB Informatik, TH Darmstadt
Projekt “Wörterbuchentwicklung für automatisches Indexing„. Sachbericht 1979. (DV II 79–3), FB Informatik, TH Darmstadt
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 1980 Springer-Verlag Berlin · Heidelberg
About this paper
Cite this paper
Knorz, G., Putze, G. (1980). Textverarbeitung zur Vorbereitung und Durchführung einer automatischen Indexierung. In: Wossidlo, P.R. (eds) Textverarbeitung und Informatik. Informatik-Fachberichte, vol 30. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-67700-7_10
Download citation
DOI: https://doi.org/10.1007/978-3-642-67700-7_10
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-10148-2
Online ISBN: 978-3-642-67700-7
eBook Packages: Springer Book Archive