Skip to content
Publicly Available Published by De Gruyter Saur May 3, 2013

wiki2rdf: Automatische Extraktion von RDF-Tripeln aus Artikelvolltexten der Wikipedia / wiki2rdf: Automatic extraction of RDF triples from Wikipedia full texts / wiki2rdf: Extraction automatique de triplets RDF à partir de textes intégraux de Wikipédia

  • Alexander Meyer EMAIL logo

Im Projekt DBpedia werden unter anderem Informationen aus Wikipedia-Artikeln in RDF-Tripel umgewandelt. Dabei werden jedoch nicht die Artikeltexte berücksichtigt, sondern vorrangig die sogenannten Infoboxen, die Informationen enthalten, die bereits strukturiert sind. Im Rahmen einer Masterarbeit am Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin wurde wiki2rdf entwickelt, eine Software zur regelbasierten Extraktion von RDF-Tripeln aus den unstrukturierten Volltexten der Wikipedia. Die Extraktion erfolgt nach Syntax-Parsing mithilfe eines Dependency-Parsers. Exemplarisch wurde wiki2rdf auf 68820 Artikel aus der Kategorie „Wissenschaftler“ der deutschsprachigen Wikipedia angewandt. Es wurden 244563 Tripel extrahiert.

DBpedia is a project that among other things extracts RDF statements from articles of Wikipedia. However, it does not exploit full article texts but mainly the so-called infoboxes that contain information that is already structured. As a master thesis at Berlin School of Library and Information Science, wiki2rdf was developed, a tool for rule-based extraction of RDF triples from full unstructured Wikipedia article texts. Extraction is carried out after syntactical parsing using a dependency parser. wiki2rdf has been used for triple extraction from 68820 articles about scientists and humanists (category “Wissenschaftler”) in GermanWikipedia. 244563 triples werde extracted.

Le projet DBpedia consiste, parmi d’autres, en la conversion d’articles de Wikipédia en triplets RDF. Toutefois, ne sont pas pris en compte les textes des articles, mais plutôt les encadrés d’information qui contiennent des informations déjà structurées. Wiki2rdf a été développé dans le cadre d’un mémoire de maîtrise à l’Institut de bibliothéconomie et sciences de l’information de l’Université Humboldt de Berlin. Il s’agit d’un logiciel pour l’extraction de triplets RDF de textes intégraux de Wikipédia non structurés. L’extraction se fait grâce à un analyseur de syntaxe et à l’aide d’un analyseur de dépendance. À titre d’exemple, wiki2rdf a été utilisé sur 68.820 articles provenant de la catégorie des « scientifiques » de la Wikipédia germanophone. 244 563 triplets ont ainsi été extraits.

Online erschienen: 2013-05-03
Erschienen im Druck: 2013-04

© 2013 by Walter de Gruyter GmbH & Co.

Downloaded on 29.3.2024 from https://www.degruyter.com/document/doi/10.1515/iwp-2013-0015/html
Scroll to top button