Skip to content
Licensed Unlicensed Requires Authentication Published by De Gruyter Oldenbourg May 12, 2011

Linked Open Data Perspectives: Incorporating Linked Open Data into Information Extraction on the Web

Linked Open Data Perspectives: Integration von Linked Open Data in Informationsextraktion im World Wide Web
  • Benjamin Adrian and Andreas Dengel

Abstract

Currently, the World Wide Web can be divided into two separate fields. The traditional Web of Documents consisting of hyperlinked web documents and the emerging Web of Data consisting of linked open data. We present ontology-based information extraction as core technology for bridging the gap between both fields. Based on this, we list three basic applications that integrate web data to web documents. Our SCOOBIE system can extract information of a linked open dataset mentioned as textual phrases in web documents. SCOOBIE returns machine interpretable metadata summarizing the content of a web document from the perspective of a linked open dataset. Based on SCOOBIE we present EPIPHANY, a system that returns extracted metadata back to the originating web document in form of semantic annotations. This allows users to request the Web of Data for more information about annotated subjects inside the web document. STERNTALER is a system that analyses extracted metadata from search results of a search engine. It generates semantic filters filled with facets of things that were extracted from web documents inside search results. This allows users filtering those web documents that contain information about specific subjects and facets.

Zusammenfassung

Das aktuelle “World Wide Web” lässt sich in zwei Welten untergliedern. Einerseits das traditionelle Netz der Dokumente, bestehend aus verknüpften Webseiten, andererseits das Netz der Daten, bestehend aus offenen und miteinander verknüpften Datensätzen (engl. “Linked Open Data”). Wir stellen ontologiebasierte Informationsextraktion als Basistechnologie vor, um beide Welten miteinander zu vereinen. Drei Anwendungen zeigen hierbei, wie sich das Netz der Dokumente mit dem Netz der Daten anreichern lässt. Beim Analysieren von Webseiten erkennt das SCOOBIE System, ob einzelne Textfragmente als Entitäten eines “Linked Open Data”-Datensatzes weitergehend beschrieben werden. Das Resultat von SCOOBIE sind maschinenverständliche Metadaten, die den Inhalt der Webseite aus der Perspektive des jeweilig verwendeten Datensatzes heraus zusammenfassen. Basierend auf den Resultaten von SCOOBIE präsentieren wir das System EPIPHANY. EPIPHANY reichert das Quelldokument mit von SCOOBIE extrahierten Metadaten an, indem semantische Annotationen über die von SCOOBIE berücksichtigten Textfragmente erstellt werden. Dies erlaubt es Benutzern, weitere Informationen aus dem Netz der Daten über annotierte Textpassagen anzufragen. Das System STERNTALER erweitert eine Suchmaschine, in dem es automatisch Metadaten aus Dokumenten der Suchresultate extrahiert. STERNTALER generiert auf Basis der extrahierten Metadaten semantische Filter, die mit Eigenschaften der im Dokument gefundenen Dingen gefüllt werden. Benutzern wird es hierdurch ermöglicht, solche Dokumente heraus zu filtern, die die gesuchten Informationen zu gewünschten Dingen mit bestimmten Eigenschaften enthalten.


* Correspondence address: Deutsches Forschungszentrum für Künstliche Intelligenz, Trippstadterstr. 121, 67663 Kaiserslautern, Deutschland,

Published Online: 2011-05-12
Published in Print: 2011-05

© by Oldenbourg Wissenschaftsverlag, Kaiserslautern, Germany

Downloaded on 28.4.2024 from https://www.degruyter.com/document/doi/10.1524/itit.2011.0633/html
Scroll to top button