Zusammenfassung
In diesem Beitrag stellen wir einen semi-automatischen Ansatz zur Unterstützung der kollaborativ und disloziert vorgenommenen Verschlagwortung heterogener Briefkorpora vor und diskutieren Vor- und Nachteile, insbesondere in Bezug auf die Qualität der Verschlagwortung einerseits und auf den Aufwand händischer Nachbesserung andererseits. Die rein manuelle Verschlagwortung kann durch die automatische Extraktion vermeintlich sinntragender Stichwörter unterstützt werden. Dies erfolgt in der einfachsten Variante durch die Berechnung von normierten Vorkommens- und inversen Dokumenthäufigkeiten. In unserem Beitrag gehen wir dieser Idee nach und diskutieren eine Verschlagwortung durch automatische, rein quantitative Stichwortextraktion mit anschließender semi-automatischer Zuordnung der Schlagwörter zu Stichwörtern. Durch Anpassung der automatischen Stichwortextraktion an das gegebene Briefkorpus lässt sich der Ansatz qualitativ verbessern. So können in dem von uns betrachteten Briefkorpus bekannte Eigennamen (von Personen, Orten, Werken, Körperschaften und Periodika) ausgeblendet werden. Die Zuordnung der Schlagwörter zu Stichwörtern kann durch interaktive Werkzeuge erleichtert werden. Darüber hinaus führt die Einbindung von Thesauri zu einer weiteren Erleichterung bei der manuellen Bestimmung der Schlagwörter und deren Verknüpfung untereinander.

Notes
Bei einem Regest handelt es sich um eine inhaltliche Zusammenfassung eines Briefes, die zum Beispiel dann Anwendung findet, wenn der vollständige Brief aus rechtlichen Gründen (Persönlichkeitsrechte, Urheberrechte) nicht verwendet werden darf.
Durch Kommentare überbrücken Editioren die zeitliche, kulturelle und geistige Distanz zwischen Text und Leser und schaffen so die Voraussetzungen für das Verständnis der Texte, die sich als historische Phänomene zeitgenössischen Lesern manches Mal nicht unmittelbar erschließen.
Synonyme verhalten sich in der Regel nicht ‚symmetrisch‛.
Das Briefmanuskript liegt in der Monacensia in München, Signatur KM B 246.
Das erste Heft der ab September 1933 erscheinenden Zeitschrift löste eine heftige Debatte unter den Exilautoren aus. Einige Autoren, darunter Thomas Mann, Stefan Zweig, Alfred Döblin verweigerten die Mitarbeit an der „Sammlung“ bzw. distanzierten sich im Nachhinein von dem Heft, da es ihnen zu politisch erschien und sie Repressalien fürchteten.
References
Blei DM (2012) Probabilistic topic models. Commun\remove{ications of the} ACM 55(4):77–84
Gießler A, Ritter J, Molitor P, Andert M, Kösser S, Leipold A (2014) A user-friendly lemmatization and morphological annotation of early new high German manuscripts. In Digital Humanities, DH2014
Hildenbrandt V, Kamzelak RS (2014) „im Exil erweitert sich die Welt“. Neue Zugangswege zu Korrespondenzen durch Visualisierung. edition 28 (2014), S 175-192
Mann G (1975) Der Brief in der Weltliteratur. Jahrbuch der Deutschen Akademie für Sprache und Dichtung, Jahrestagung in Darmstadt, S 77–106
Manning CD, Raghavan P, Schütze H (2009) An introduction to information retrieval. Cambridge Universi\remove{y}ty Press\add{, Cambridge}
Naber D (2005) OpenThesaurus: ein offenes deutsches Wortnetz. In Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen: Beiträge zur GLDV-Tagung. Frankfurt: Peter-Lang-Verlag
Schmid H (1994) Probabilistic part-of-speech tagging using decision trees. In Proceedings of international conference on new methods in language processing, S 44–49
Schmid H (1999) Improvements in part-of-speech tagging with an application to German. In: Armstrong S, Church K, Isabelle P, Manzi S, Tzoukermann E, Yarowsky D (eds) Natural language processing using very large corpora, vol 11 of Text, speech and language processing, Kluwer Academic Publishers, Dordrecht, S 13–26
{TEI} - Text Encoding Initiative (1988) Internet: http://www.tei-c.org/index.xml. Zugegriffen: 24. Sept. 2014
Toutanova K, Klein D, Manning C, Singer Y (2003) Feature-rich part-of-speech tagging with a cyclic dependency network. In Proceedings of HLT-NAACL, S 252–259
Uschtrin S (2010) Die Kunst des Indexierens. Interview mit Jochen Fassbender. Federwelt 4:4–10. http://www.d-indexer.org/ress/bibl/Uschtrin_Interview_Federwelt83.pdf. Zugegriffen: 12. Okt. 2014
Vedder U (2010) Chance auf Verlangsamung? Was Briefe waren und werden können. Forschung und Lehre 9:636–637
Wortschatz-Portal der Universität Leipzig (1998) Internet: http://wortschatz.uni-leipzig.de/ Zugegriffen: 12. Okt. 2014
www.exilnetz33.de (2013) Zugegriffen: 11. Okt. 2014
Author information
Authors and Affiliations
Corresponding author
Additional information
Das Projekt „Vernetzte Korrespondenzen. Erforschung und Visualisierung sozialer, räumlicher, zeitlicher und thematischer Netze in Briefkorpora“ wird im Rahmen des Programms „eHumanities“ (Bekanntmachung 16466 vom 24.5.2011) des Bundesministeriums für Bildung und Forschung (BMBF-Projektkürzel: 01UG1354) gefördert.
Rights and permissions
About this article
Cite this article
Hildenbrandt, V., Kamzelak, R., Molitor, P. et al. „im Zentrum eines Netzes [...] geistiger Fäden“. Erschließung und Erforschung thematischer Zusammenhänge in heterogenen Briefkorpora. Datenbank Spektrum 15, 49–55 (2015). https://doi.org/10.1007/s13222-014-0177-7
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s13222-014-0177-7