Yiddish OCR Corpus

Name: Yiddish OCR Corpus
Creator: Joliciel Informatique, Yiddish Book Center
Published: 2025-01-15 05:21:39
License: 暂无描述

arXiv2025-01-15 更新2025-01-17 收录

下载链接：

https://gitlab.com/jochre/corpora/jochre-yiddish-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Yiddish OCR Corpus是由Joliciel Informatique和Yiddish Book Center共同创建的公开数据集，旨在解决意第绪语历史文档的OCR问题。该数据集包含658页文档，涵盖186K个单词和840K个字形，数据来源于意第绪语书籍中心（Yiddish Book Center）的数字化图书馆。数据集的创建过程包括使用Jochre 2生成初始OCR层，并通过人工标注团队进行校正，最终以Alto 4 XML标准存储。该数据集广泛应用于OCR工具的开发和评估，特别是针对意第绪语这种非标准化语言的OCR技术改进。

Yiddish OCR Corpus is a public dataset co-created by Joliciel Informatique and the Yiddish Book Center, aimed at addressing OCR challenges for historical Yiddish documents. This dataset includes 658 pages of documents, covering 186K words and 840K glyphs, with data sourced from the digital library of the Yiddish Book Center. The dataset was developed by first generating initial OCR layers using Jochre 2, then undergoing correction by a manual annotation team, and ultimately stored in accordance with the Alto 4 XML standard. It is widely applied in the development and evaluation of OCR tools, particularly for advancing OCR technology for non-standardized languages such as Yiddish.

提供机构：

Joliciel Informatique, Yiddish Book Center

创建时间：

2025-01-15

搜集汇总

数据集介绍

构建方式

Yiddish OCR Corpus的构建过程基于对历史意第绪语文献的深度分析与标注。首先，研究团队从Yiddish Book Center的数字图书馆中选取了658页文献，涵盖了1880年至1960年间的多种印刷风格和拼写规范。每页文献通过Jochre 2进行初步OCR处理，生成Alto 4 XML格式的标注层。随后，由三名标注员使用Jochre Alto Editor进行逐字校对，确保每个字形（glyph）的准确性。标注过程中，团队还通过Krippendorf’s α系数评估了标注者间的一致性，结果显示标注质量极高，尤其是在简化YIVO拼写规范后，一致性达到了0.992。

特点

Yiddish OCR Corpus的特点在于其多样性和高质量。该数据集涵盖了多种历史印刷风格、拼写规范以及多语言元素（如拉丁字母和西里尔字母）。数据集中的文献按出版年代、城市和体裁进行了分类，确保了广泛的代表性。此外，数据集保留了原始文献中的多种字形变体（如不同形式的破折号），并在训练和评估时仅对字形进行标准化处理。这种精细的标注方式使得该数据集特别适合用于训练和评估OCR模型，尤其是在处理复杂的历史文献时。

使用方法

Yiddish OCR Corpus的使用方法主要围绕Jochre 3 OCR工具展开。用户可以通过Jochre 3进行页面布局分析和字形识别，生成高质量的OCR结果。Jochre 3结合了YOLOv8模型进行页面布局分析，并使用自定义的卷积神经网络（CNN）进行字形识别。此外，Jochre 3还提供了一个OCR搜索引擎，支持用户通过REST API进行搜索，并允许用户对OCR结果进行众包校正。该工具不仅适用于意第绪语文献的OCR处理，还可通过调整配置应用于其他低资源语言的OCR任务。

背景与挑战

背景概述

Yiddish OCR Corpus 是一个专门为意第绪语（Yiddish）历史文献构建的光学字符识别（OCR）数据集，旨在解决意第绪语文献的数字化和搜索问题。该数据集由 Yiddish Book Center 和 Joliciel Informatique 的研究团队于 2025 年发布，包含了 658 页历史文献，涵盖 186,000 个词汇和 840,000 个字形。意第绪语作为一种非标准化语言，其拼写规则、字体多样性和历史文献的印刷质量使得 OCR 技术面临巨大挑战。该数据集的构建为意第绪语文献的数字化提供了重要支持，并为相关领域的研究者提供了宝贵的资源。

当前挑战

Yiddish OCR Corpus 的构建面临多重挑战。首先，意第绪语作为一种非标准化语言，存在多种拼写规则和方言变体，尤其是历史文献中的拼写与现代意第绪语存在显著差异。其次，历史文献的印刷质量较低，字体多样且包含大量变音符号，增加了字符识别的难度。此外，文献中常混合使用希伯来字母、拉丁字母和西里尔字母，进一步增加了 OCR 的复杂性。在数据集构建过程中，研究人员还需克服数据标注的挑战，尤其是在字形级别的标注上，需确保标注的准确性和一致性。这些挑战使得意第绪语 OCR 技术的开发和应用成为一项极具难度的任务。

常用场景

经典使用场景

Yiddish OCR Corpus 数据集最经典的使用场景在于历史文献的数字化与检索。该数据集通过提供高质量的意第绪语光学字符识别（OCR）模型，使得大量19世纪至20世纪的意第绪语书籍能够被准确扫描并转化为可搜索的文本。这一过程不仅为研究者提供了便捷的文本分析工具，还为文化遗产的保存与传播提供了重要支持。

衍生相关工作

Yiddish OCR Corpus 的发布催生了多项相关研究工作。例如，基于该数据集训练的Jochre 3 OCR工具已被用于多个意第绪语数字化项目，如全球意第绪图书馆（Universal Yiddish Library）。此外，该数据集还为其他低资源语言的OCR研究提供了参考，尤其是在处理非标准化拼写和多字母系统的语言时，其方法具有广泛的借鉴意义。

数据集最近研究