19.09.2024 | News | Forschung

Burchards Dekret Digital - Neue Modelle zur Texterkennung in Transkribus und Kraken / Burchard's Decree Digital - New Models for Text Recognition in Transkribus and Kraken

Die im Projekt „Burchards Dekret Digital“ entwickelten Modelle zur Texterkennung in kanonistischen Handschriften stehen ab sofort zur Nachnutzung in Transkribus und Kraken bereit. Dies umfasst die beiden Pylaia-Modelle ‚bdd-wormser-scriptorium-0.2‘ und ‚bdd-wormser-scriptorium-expan-0.1‘, die als Public Models in Transkribus genutzt werden können. Beide Modelle erzielen hervorragende Ergebnisse bei der Erkennung: Das Modell ‚bdd-wormser-scriptorium-0.2‘ erreicht eine Fehlerrate von 2,4% bei der graphematischen Transkription (https://www.transkribus.org/model/bdd-wormser-scriptorium-0.2). Das Modell ‚bdd-wormser-scriptorium-expan-0.1‘ erzielt eine normalisierte Transkription mit einer Fehlerrate von 3,2% (https://www.transkribus.org/model/bdd-wormser-scriptorium-expanded-0.1).

Daneben wurden Modelle für die Nutzung in Kraken trainiert, die unter einer freien Lizenz zur Verfügung stehen: ‚bdd-wormser-scriptorium-abbreviated-0.2‘ für die graphematische Transkription (https://zenodo.org/records/13741957) und ‚bdd-wormser-scriptorium-expanded-0.1.mlmodel‘ für die normalisierte Transkription. Die Modelle werden kontinuierlich verbessert und in regelmäßigen Abständen in neuen Versionen zugänglich gemacht.

The models for text recognition in canonical manuscripts, developed within the project „Burchard's Decree Digital,“ are now available for reuse in Transkribus and Kraken. This includes the two Pylaia models ‚bdd-wormser-scriptorium-0.2‘ and ‚bdd-wormser-scriptorium-expan-0.1‘, which are available as public models in Transkribus. Both models achieve excellent results in recognition: the model ‚bdd-wormser-scriptorium-0.2‘ achieves an error rate of 2.4% for graphematic transcription (https://www.transkribus.org/model/bdd-wormser-scriptorium-0.2). The model ‚bdd-wormser-scriptorium-expan-0.1‘ achieves a normalized transcription with an error rate of 3.2% (https://www.transkribus.org/model/bdd-wormser-scriptorium-expanded-0.1).

Both models have also been trained for use in Kraken and are available under a free license: ‘bdd-wormser-scriptorium-abbreviated-0.2’ for graphematic transcription (https://zenodo.org/records/13741957) and ‘bdd-wormser-scriptorium-expanded-0.1.mlmodel’ for normalized transcription. The models are continuously being improved and are made available in new versions at regular intervals.