Zusammenfassung
Die Verfahren der Dokumentanalyse versuchen, den Informationsgehalt eines Papierdokumentes rechnergestützt zu erfassen und es in ein elektronisches Dokument umzuwandeln. Die elektronische Repräsentation muß nicht nur den Inhalt, sondern auch die Logik- und Layoutstruktur des Dokumentes enthalten. Das für die Analyse wichtige Dokumentmodell und die Repräsentation der Ergebnisse der Dokumentanalyse basieren auf Konzepten, deren Rahmen durch die Standards für Bürodokument-Architekturen gegeben ist. Die Resultate der Vorverarbeitung des abgetasteten Dokumentes werden wie die Endergebnisse der Analyse durch objektorientierte Datenstrukturen beschrieben. Die Analyse wird durch ein hierarchisches Layoutmodell gesteuert. Dieses beschreibt das geometrische Erscheinungsbild einer Dokumentseite durch ihre rekursive Aufteilung in immer kleinere Bereiche. Das Layoutmodell enthält außerdem Hypothesen für die semantische Bedeutung von Briefteilen in Abhängigkeit von deren Lage. Die Analyse nutzt diese Hypothesen bei einer bewertungsgesteuerten Suche (best-first-search). Die Hypothesen für die semantische Zuordnung der Blöcke werden durch eine Wissensbasis verifiziert, wobei sie entweder bestätigt werden oder die Bildung neuer Hypothesen angeregt wird. Das System wurde für die Analyse von vereinfachten Geschäftsbriefen implementiert und ist unempfindlich gegenüber Variationen und Störungen des Layouts.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Literatur
Bergengruen, O.; Luhn, A; Maderlechner, G.; Ueberreiter, B.: “Dokumentanalyse mit Hilfe von ATN’s und unscharfen Relationen” Proc. 9. DAGM-Symposium, Braunschweig 1987 (in Druck)
Breuer, M.A.: “A class of min-cut placement algorithms” Proc. 14th Design Automation Conf. 1977, S. 284–290
Scheller, A.; Smith, C.: “Document Application Processing and Heterogeneous Network Environment” Bentzerhandbuch (Version 2.0) DFN-Bericht Nr. 41, 1986
ECMA 101 “Office document architecture” Sept. 1985
“Information processing - text processing and interchange - text structures” Parts 1 to 6 ISO/DIS 8613; June 1986
Kreich, J., Uebereiter B.: Interpretation bildhafter Bürodokumente mittels objekt-orientierter Wissensrepräsentation und hypothesengesteuerter Kontrollstrategien Proc. B. DAGM-Symposium, Paderborn 1986
Kr87/ Kreich, J.: Dokumentanalyse auf der Basis von Klassenkonzepten und Truth-Maintenance Proc. 9. DAGM-Symposium, Braunschweig 1987 (in Druck)
Na84/ Nagy, Seth: “Hierarchical representation of optically scanned documents” University of Nebraska-Lincoln Proc. 7th ICPR, Monreal 1984
Nagy, Seth, Stoodard: “Document Analysis with an Expert System” Elsevior Science Publishers B.V., (North Holland) 1986, S. 149
Schäfer, M.: “Die Vision vom papierlosen Büro” Funkschau 19, 1986, S. 45
Woods, W. “Transition Network Prammars for Natural Language Analysis” Proc. CACM 13, 1970, S. 501
Author information
Authors and Affiliations
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 1987 Springer-Verlag Berlin Heidelberg
About this paper
Cite this paper
Dengel, A., Barth, G., Luhn, A., Ueberreiter, B. (1987). Ein Ansatz zur Modellierung und Analyse von Dokumenten durch ein Zerschneidungsverfahren für das Layout. In: Paul, M. (eds) GI — 17. Jahrestagung Computerintegrierter Arbeitsplatz im Büro. Informatik-Fachberichte, vol 156. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-01110-2_47
Download citation
DOI: https://doi.org/10.1007/978-3-662-01110-2_47
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-18478-2
Online ISBN: 978-3-662-01110-2
eBook Packages: Springer Book Archive