Zusammenfassungen
Das automatische Zuweisen von Themengebieten zu beliebigen Dokumenten ist eine der anspruchsvollsten Aufgaben in der Computerlinguistik. Um dies technisch überhaupt bewerkstelligen zu können, setzt es ein gewisses »Verständnis« eines Textes voraus. Üblicherweise werden bei solchen Verfahren groβe — von Hand erstellte — thematisch vorsortierte Datenbanken benutzt. In dieser Arbeit wird zusammen mit statistischen Datenanalysen die »Datenbank« Wikipedia verwendet, um mit ihren semantischen Strukturen automatisch passende Themen von Dokumenten zu identifizieren und anschlieβend zuzuordnen. Darüber hinaus wird mit einem weiteren Verfahren gezeigt, wie das Auffinden ähnlicher Dokumente verbessert werden kann.
Literatur
Bunescu, R.; Pasca, M.: Using Encyclopedic Knowledge for Named Entity Disambiguation. In: Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL-06), Trento, Italy, 2006, S 9–16.
Cucerzan, S.: Large-Scale Named Entity Disambiguation Based on Wikipedia Data. In: Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2007), Prague, Czech Republic, 2007, S. 708–716.
Finkelstein, L.; Gabrilovich, Y. M.; Rivlin, E.; Solan, Z.; Wolfman, G.; Ruppin, E.: Placing search in context: The concept revisited. ACM Transactions on Information Systems, 20(1), 2002, S. 116–131.
Gabrilovich, E.; Markovitch, S.: Overcoming the brittleness bottleneck using Wikipedia: Enhancing text categorization with encyclopedic knowledge. In: Proceedings of the 21st National Conference on Artificial Intelligence, Boston, MA, 2006, S. 1301–1306.
Gabrilovich, E.; Markovitch, S.: Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis. In: Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI’07), Hyderabad, India, 2007.
Hacken, P. ten: WordManager. In: State of the Art in Computational Morphology, Workshop on Systems and Frameworks for Computational Morphology (SFCM 2009), Zurich, Proceedings Series: Communications in Computer and Information Science, Vol. 41, Springer-Verlag, 2009.
Karttunen, L.: Constructing Lexical Transducers. In: The Proceedings of the 15th International Conference on Computational Linguistics. Coling 94, I, Kyoto, Japan, 1994, S. 406–411.
Koskenniemi, K.: Two-level Morphology. A General Computational Model for Word-Form Recognition and Production. Department of General Linguistics, University of Helsinki, 1983.
Milne, D.; Witten, I. H.: Learning to link with Wikipedia. In: Proceedings of the ACM Conference on Information and Knowledge Management (CIKM’2008), Napa Valley, California, 2008.
Salton, G.; McGill, M. J.: Introduction to modern information retrieval. McGraw-Hill, 1983.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Gillmeier, S., Hengartner, U. & Pedrazzini, S. Wie man mit der Wikipedia semantische Verfahren verbessern kann. HMD 47, 70–80 (2010). https://doi.org/10.1007/BF03340439
Published:
Issue Date:
DOI: https://doi.org/10.1007/BF03340439