Published March 7, 2022 | Version v1
Conference paper Open

NERDPool - Datenpool für Named Entity Recognition

  • 1. Österreichische Akademie der Wissenschaften, Austria
  • 2. Universität Graz, Austria
  • 1. Universität der Bundeswehr München, Deutschland
  • 2. Universität Potsdam, Deutschland
  • 3. Digital Humanities im deutschsprachigen Raum e.V., Deutschland

Description

In digitalen Editionen ist die automatische Erkennung und Annotation von Personen, Orten und Datumsangaben eine wichtige Aufgabe. Named Entity Recognition (NER) spielt dabei eine zentrale Rolle. Historische Texte bilden noch ein Problem, da oft zu wenig Trainingsmaterial zur Verfügung steht, um entsprechende ML-Modelle zu trainieren.Das Projekt NERDPool versucht einerseits existierende Editionsdaten zu nutzen und daraus einen Pool an Trainingsdaten zu generieren, sowie andererseits Workflows zu erproben und zu implementieren, die es erlauben, einfach und effizient bestehende Korpa manuell zu annotieren. Den Schwerpunkt setzt das Projekts auf frühneuzeitliche deutsche Texte. Die Datensätze werden über die Webapplikation https://nerdpool-api.acdh-dev.oeaw.ac.at/ respektive über eine impelementierte offene API veröffentlicht. Mit Stand mitte Juli umfasst NERDPool rund 23.500 annotierte Datensätze. Darunter sind etwa Akten vom Regensburger Reichstag von 1576, Ministerratsprotokolle Österreichs und der österreichisch-ungarischen Monarchie 1848–1918 oder die ersten Ausgaben des Wienerischen Diariums (um 1750).

Ein Beitrag zur 8. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2022 Kulturen des digitalen Gedächtnisses.

Files

ANDORFER_Peter_NERDPool___Datenpool_f_r_Named_Entity_Recogni.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.6304590 (DOI)