five

Elektronischer Anhang zur MAS-Arbeit: Evaluation der OCR-Qualität von frühneuzeitlichen deutschsprachigen Drucken aus dem Bestand der Zentralbibliothek Zürich (ZB) auf der Online-Plattform e-rara.ch

收藏
NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/14994198
下载链接
链接失效反馈
官方服务:
资源简介:
Optical Character Recognition (OCR) ist ein zentrales Instrument für die digitale Erschliessung historischer Bibliotheksbestände, indem sie Volltextsuche und computergestützte Analysen ermöglicht. Allerdings erschwert die Fehleranfälligkeit  von OCR-Transkriptionen alter Drucke die Anwendung. Vorliegende Arbeit untersucht die OCR-Qualität frühneuzeitlicher deutschsprachiger Bücher aus dem Bestand der Zentralbibliothek Zürich auf e-rara.ch. Zur automatisierten Qualitätsevaluation werden drei Messgrößen getestet: 5-gramm-Analyse, Pseudo-Perplexität und lexikalischer Lookup. Eine Regressionsanalyse zeigt, dass die 5-gramm-Analyse die Zeichenfehlerrate am zuverlässigsten schätzt (R² = 0.80) und als Qualitätsindikator für den Gesamtbestand verwendet werden kann. Gemäss Untersuchung weisen rund 43 Prozent der OCR-Texte eine Zeichenfehlerrate (CER) von über 10 Prozent auf, wodurch Auffindbarkeit und Weiterverarbeitung dieser Texte erheblich eingeschränkt ist. Basierend auf den Ergebnissen werden Empfehlungen für eine gezielte Nachkorrektur, den Einsatz trainierter OCR-Modelle und eine transparente Kennzeichnung der OCR-Qualität für Nutzende formuliert. Dieser elektronische Anhang enthält alle in der Arbeit erwähnten Skripte für Python und R, weiterverarbeitete JSON- und Text-Dateien, die detaillierten Resultate der Regressionsanalysen sowie die Titellisten, OCR-Texte (und ggf. Ground Truth-Texte) für die Testauswahl sowie die Zufallsauswahl.
创建时间:
2025-03-09
二维码
社区交流群
二维码
科研交流群
商业服务