Skip to content
Publicly Available Published by De Gruyter Saur May 3, 2013

Automatische Inhaltserschließung in der Fachinformation / Automatic indexing of domain-specific information / L´indexation automatique dans l´information spécialisée

Eine Evaluation zur maschinellen Indexierung sozialwissenschaftlicher Forschungsliteratur / Anevaluation of automated content cataloguing of socialscience research literature / Une évaluation du catalogage automatisé de la littérature de recherche en sciences sociales

  • Andreas Oskar Kempf

    Dr. Andreas Oskar Kempf ist Absolvent des weiterbildenden Masterstudiengangs Bibliotheks- und Informationswissenschaft an der Humboldt-Universität zu Berlin. Nach dem Studium der Kulturwissenschaften und einer Promotion im Fach Soziologie ist er aktuell wissenschaftlicher Mitarbeiter bei GESIS – Leibniz-Institut für Sozialwissenschaften. Verantwortlich für den Thesaurus und die Klassifikation Sozialwissenschaften zählen zu seinen Forschungsgebieten neben der automatischen Indexierung die Stärkung der Interoperabilität sowie die Einbindung der Erschließungsinstrumente in Anwendungen des Semantic Web.

    EMAIL logo

Der Artikel basiert auf einer Masterarbeit mit dem Titel „Automatische Indexierung in der sozialwissenschaftlichen Fachinformation. Eine Evaluationsstudie zur maschinellen Erschließung für die Datenbank SOLIS“ (Kempf 2012), die im Rahmen des Aufbaustudiengangs Bibliotheks- und Informationswissenschaft an der Humboldt- Universität zu Berlin am Lehrstuhl Information Retrieval verfasst wurde. Auf der Grundlage des Schalenmodells zur Inhaltserschließung in der Fachinformation (vgl. Krause 1996, 2006) stellt der Artikel Evaluationsergebnisse eines automatischen Erschließungsverfahrens für den Einsatz in der sozialwissenschaftlichen Fachinformation vor. Ausgehend von dem von Krause beschriebenen Anwendungsszenario, wonach SOLIS-Datenbestände (Sozialwissenschaftliches Literaturinformationssystem) von geringerer Relevanz automatisch erschlossen werden sollten, wurden auf dieser Dokumentgrundlage zwei Testreihen mit der Indexierungssoftware MindServer der Firma Recommind1 durchgeführt. Neben den Auswirkungen allgemeiner Systemeinstellungen in der ersten Testreihe wurde in der zweiten Testreihe die Indexierungsleistung der Software für die Rand- und die Kernbereiche der Literaturdatenbank miteinander verglichen. Für letztere Testreihe wurden für beide Bereiche der Datenbank spezifische Versionen der Indexierungssoftware aufgebaut, die anhand von Dokumentkorpora aus den entsprechenden Bereichen trainiert wurden. Die Ergebnisse der Evaluation, die auf der Grundlage intellektuell generierter Vergleichsdaten erfolgt, weisen auf Unterschiede in der Indexierungsleistung zwischen Rand- und Kernbereichen hin, die einerseits gegen den Einsatz automatischer Indexierungsverfahren in den Randbereichen sprechen. Andererseits deutet sich an, dass sich die Indexierungsresultate durch den Aufbau fachteilgebietsspezifischer Trainingsmengen verbessern lassen.

This article is based on a Master thesis with the title “Automatische Indexierung in der sozialwissenschaftlichen Fachinformation. Eine Evaluationsstudie zur maschinellen Erschließung für die Datenbank SOLIS” (Kempf 2012) written within the framework of the postgraduate study program Library and Information Science at Humboldt-Universität zu Berlin at the chair of Information Retrieval. On the basis of the so-called ‘Shell Model’ (Krause 1996, 2006) for domain-specific content cataloguing it presents evaluation results of an automatic indexing tool for cataloguing of social science research literature. Taking the concrete application scenario formulated by Krause, which suggests that SOLIS-data (Social Science Literature Information System) of less relevance should be indexed automatically, the software MindServer by Recommind was tested in two test series on exactly this data. While in the first test series the system’s general settings were tested in the second test series the indexing performance for key and for border areas of the database were compared. For this purpose, sub-discipline-specific versions of the software were built up, which were trained on the basis of corresponding data corpora. The results, evaluated on the basis of intellectually generated comparative data, indicate differences in the quality of indexing for key and for border areas of the database which on the one hand speak against the use of automatic indexing for this area of the database. On the other hand the tests suggest that by building up sub-discipline-specific corpora of training the indexing results could be improved.

Cet article est basé sur un mémoire de Master II intitulé « Automatische Indexierung in der sozialwissenschaftlichen Fachinformation. Eine Evaluationsstudie zur maschinellen Erschließung für die Datenbank SOLIS » (Kempf 2012) rédigé dans le cadre du cursus post-gradué Bibliothéconomie et Sciences de l’Information de Humboldt- Universität zu Berlin à la chaire Information Retrieval. Se basant sur le modèle dit « modèle des strates » (Krause 1996, 2006) pour le catalogage d’un contenu spécifique à un domaine, il présente des résultats d’une étude qui porte sur les outils d’indexation automatique dans la littérature de recherche en sciences sociales. En partant du scénario concret formulé par Krause qui stipule que les données SOLIS (Système d’Information en Littérature dans les Sciences Sociales) d’importance moindre devraient être indexées de manière automatisée, le logiciel MindServer fait par Recommind a été testé dans deux séries de tests portant exactement sur ces données. Tandis que dans la première série les paramètres généraux ont été testés, la deuxième série portait sur la performance dans le domaine de l’indexation de données centrales et périphériques. A cet effet, on a établi des versions sous-spécifiques du logiciel qui étaient entraînées sur des corpus de données correspondant aux sous-disciplines. Les résultats, évalués sur les bases de données comparatives générées intellectuellement, indiquent des différences dans la qualité d’indexation pour les données centrales et périphériques de la banque de données qui mettent en garde contre l’usage de l’indexation automatique dans cette partie de la banque de données. De l’autre côté, les tests révèlent qu’en établissant des corpus sousspécifiques d’entraînement les résultats d’indexation peuvent être améliorés.

Über den Autor / die Autorin

Dr. Andreas Oskar Kempf

Dr. Andreas Oskar Kempf ist Absolvent des weiterbildenden Masterstudiengangs Bibliotheks- und Informationswissenschaft an der Humboldt-Universität zu Berlin. Nach dem Studium der Kulturwissenschaften und einer Promotion im Fach Soziologie ist er aktuell wissenschaftlicher Mitarbeiter bei GESIS – Leibniz-Institut für Sozialwissenschaften. Verantwortlich für den Thesaurus und die Klassifikation Sozialwissenschaften zählen zu seinen Forschungsgebieten neben der automatischen Indexierung die Stärkung der Interoperabilität sowie die Einbindung der Erschließungsinstrumente in Anwendungen des Semantic Web.

Online erschienen: 2013-05-03
Erschienen im Druck: 2013-04

© 2013 by Walter de Gruyter GmbH & Co.

Downloaded on 26.4.2024 from https://www.degruyter.com/document/doi/10.1515/iwp-2013-0011/html
Scroll to top button