NERDPool - Datenpool für Named Entity Recognition
- 1. Österreichische Akademie der Wissenschaften, Austria
- 2. Universität Graz, Austria
Contributors
- 1. Universität der Bundeswehr München, Deutschland
- 2. Universität Potsdam, Deutschland
- 3. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
Description
In digitalen Editionen ist die automatische Erkennung und Annotation von Personen, Orten und Datumsangaben eine wichtige Aufgabe. Named Entity Recognition (NER) spielt dabei eine zentrale Rolle. Historische Texte bilden noch ein Problem, da oft zu wenig Trainingsmaterial zur Verfügung steht, um entsprechende ML-Modelle zu trainieren.Das Projekt NERDPool versucht einerseits existierende Editionsdaten zu nutzen und daraus einen Pool an Trainingsdaten zu generieren, sowie andererseits Workflows zu erproben und zu implementieren, die es erlauben, einfach und effizient bestehende Korpa manuell zu annotieren. Den Schwerpunkt setzt das Projekts auf frühneuzeitliche deutsche Texte. Die Datensätze werden über die Webapplikation https://nerdpool-api.acdh-dev.oeaw.ac.at/ respektive über eine impelementierte offene API veröffentlicht. Mit Stand mitte Juli umfasst NERDPool rund 23.500 annotierte Datensätze. Darunter sind etwa Akten vom Regensburger Reichstag von 1576, Ministerratsprotokolle Österreichs und der österreichisch-ungarischen Monarchie 1848–1918 oder die ersten Ausgaben des Wienerischen Diariums (um 1750).
Ein Beitrag zur 8. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2022 Kulturen des digitalen Gedächtnisses.
Files
ANDORFER_Peter_NERDPool___Datenpool_f_r_Named_Entity_Recogni.pdf
Files
(38.1 kB)
Name | Size | Download all |
---|---|---|
md5:1ed9f96999d34237d6e1002c9a37b374
|
25.5 kB | Preview Download |
md5:35207de81b4f43c06699300608fe6938
|
12.5 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.6304590 (DOI)