samaritan_hebrew_LightOnOcr
收藏Hugging Face2026-01-23 更新2026-01-24 收录
下载链接:
https://huggingface.co/datasets/samaritan-ai/samaritan_hebrew_LightOnOcr
下载链接
链接失效反馈官方服务:
资源简介:
撒玛利亚希伯来语OCR数据集是一个专门用于微调OCR模型的数据集,主要针对撒玛利亚希伯来语手稿。该数据集包含46,860个标注样本,这些样本是从1,374个手稿页面中提取的,并转换为LightOnOCR-2训练格式。数据集包括行级样本(40,219个)、段落级样本(5,267个)和全页样本(1,374个),提供了不同粒度的训练示例。每个样本包含图像、文本、来源和类型等字段。数据集分为训练集(85%)、验证集(10%)和测试集(5%)。数据集的主要语言是希伯来语(从撒玛利亚文字转写而来),文本方向为从右到左(RTL)。数据集旨在支持历史手稿的数字化和保护,适用于OCR模型微调、历史文档数字化研究和希伯来文字识别训练。
创建时间:
2026-01-23
原始信息汇总
Samaritan Hebrew OCR Dataset 数据集概述
数据集基本信息
- 数据集名称:Samaritan Hebrew OCR Dataset
- 发布者:John Locke
- 发布日期:2026-01-22
- 最后更新日期:2026-01-22
- 数据集版本:1.0.0
- 许可证:cc-by-4.0
- 任务类别:image-to-text
- 模态:多模态 (图像 + 文本)
- 规模类别:10K<n<100K
数据集内容与目的
该数据集是一个专门用于在撒马利亚希伯来语手稿上微调OCR模型的专用数据集。它包含从1,374页手稿中提取的46,860个带标注样本,这些样本已从PAGE-XML格式转换为LightOnOCR-2训练格式。
数据集结构
数据字段
每个样本包含以下字段:
images(List[Image]):包含单个PIL Image对象的列表,代表裁剪的图像区域(行、段落或整页)。texts(List[Dict]):包含对话式字典的列表,其中:user:提示/问题(通常在训练中被忽略或为空)。assistant:真实转录文本(经过Unicode标准化的希伯来语文本)。
source(string):源文件标识符(XML文件名)。type(string):样本类型指示符("line"、"paragraph"或"page")。
样本类型
数据集包含三种类型的样本:
- 行级样本:使用精确多边形掩码裁剪的单个文本行(40,219个样本)。
- 段落级样本:将5-10个连续行合并到周围多边形中的组(5,267个样本)。
- 整页样本:带有完整转录的完整手稿页面(1,374个样本)。
数据划分
数据集被划分为三个子集:
| 划分 | 样本数量 | 百分比 | 描述 |
|---|---|---|---|
| 训练集 | 39,831 | 85.0% | 用于模型微调的训练数据 |
| 验证集 | 4,686 | 10.0% | 用于超参数调整和早停的验证数据 |
| 测试集 | 2,343 | 5.0% | 用于最终模型评估的测试数据 |
| 总样本数:46,860 |
数据集详情
来源与预处理
- 源数据:源数据由对齐的手稿图像和PAGE-XML标注组成。原始手稿是经过数字化和人工标注的历史撒马利亚希伯来语文本。
- 源数据格式:PAGE-XML (Prima Research PAGE格式)。
- 源文件:1,374个XML标注文件及对应的图像文件。
- 图像格式:JPG, PNG(支持多种格式)。
- 标注格式:带有Unicode转录的文本行多边形。
- 预处理步骤:
- XML解析:从PAGE-XML文件中提取文本行多边形和转录。
- 基于多边形的裁剪:使用精确的多边形掩码(而非边界框)裁剪图像,以准确处理弯曲的文本行。
- Unicode标准化:所有转录均被标准化为NFC(规范组合)形式,这是希伯来语文本的推荐形式。
- 样本生成:生成行样本、段落样本和整页样本。
- 内存优化处理:采用批处理以高效处理大规模转换。
数据集统计
- 手稿总页数:1,374
- 总样本数:46,860
- 行级:40,219 (85.8%)
- 段落级:5,267 (11.2%)
- 整页:1,374 (2.9%)
- 平均每页行数:~29.3 行
- Unicode标准化:NFC(规范组合)
语言信息
- 主要语言:希伯来语(从撒马利亚文字转写而来)
- 文字:希伯来字母
- 文本方向:从右到左 (RTL)
使用信息
预期用途
- 为撒马利亚希伯来语手稿微调OCR模型(特别是LightOnOCR-2)。
- 历史文献数字化研究。
- OCR模型评估和基准测试。
- 训练希伯来文字识别模型。
已知限制
- 文字特异性:数据集专门为转写为希伯来字符的撒马利亚希伯来语手稿设计。
- 历史内容:所有样本均来自历史手稿,其特征可能与现代印刷文本不同。
- 质量不一:手稿图像在质量、分辨率和保存状态上可能有所不同。
- 转写:文本已从撒马利亚文字转写为希伯来语,这可能会引入一些变异。
加载与使用
- 存储格式:Apache Arrow (
.arrow文件) - 框架:HuggingFace
datasets库 - 图像编码:以Arrow格式存储的PIL Image对象
相关资源
- 基础模型:LightOnOCR-2-1B-base
- 类似数据集:IAM Dataset
- 转换脚本:使用
convert_pagexml_to_lightonocr.py脚本创建,该脚本支持PAGE-XML和ALTO-XML格式,实现了基于多边形的裁剪,生成混合内容样本,应用Unicode标准化,并使用内存高效的批处理。
搜集汇总
数据集介绍

构建方式
在历史文献数字化领域,萨马里亚希伯来语OCR数据集的构建体现了对古代手稿的精细处理。该数据集源自1,374页萨马里亚希伯来语手稿,通过解析PAGE-XML格式的标注文件,提取文本行的多边形坐标与转录文本。采用多边形掩码裁剪技术,精确捕捉弯曲文本行的图像区域,并生成三个层次的样本:行级样本为单行裁剪,段落样本通过凸包算法合并连续行,页级样本则保留完整页面布局。所有转录文本均经过Unicode规范化处理,转换为NFC形式,确保希伯来文字符的一致性,最终形成包含46,860个样本的结构化数据集。
特点
该数据集的核心特点在于其多层次的内容粒度与历史语言的专属性。样本涵盖行、段落和完整页面三种类型,分别占85.8%、11.2%和2.9%,这种混合结构模拟了实际文档识别的复杂性,类似于IAM数据集的多样化训练范例。所有文本均为从萨马里亚文字转写为希伯来字母的历史手稿内容,遵循从右至左的书写方向,并经过严格的Unicode规范化处理。数据集的图像均基于多边形裁剪,而非简单边界框,能更准确地保留古代手稿中常见的曲线文本形态,为OCR模型提供了适应历史文档独特布局与字体特征的训练基础。
使用方法
该数据集专为微调LightOnOCR-2等OCR模型而设计,适用于历史手稿数字化研究。用户可通过HuggingFace的datasets库直接加载数据集,并访问训练、验证与测试分割。每个样本包含图像列表与文本对话结构,其中assistant字段提供真实转录文本。在使用时,可结合LightOnOCR处理器与生成模型,将图像与文本转换为模型输入张量。数据集支持按样本类型过滤,便于针对行、段落或页面级任务进行针对性训练。其格式兼容Apache Arrow存储,确保了大规模数据的高效处理,为希伯来语历史文献的自动识别提供了标准化的实验平台。
背景与挑战
背景概述
在历史文献数字化与光学字符识别(OCR)研究领域,针对特定古老文字的识别一直是一项关键挑战。Samaritan Hebrew OCR Dataset 由研究人员 John Locke 于2026年创建,旨在为撒玛利亚希伯来语手稿提供专门的OCR模型微调数据。该数据集从1,374页手稿中提取了46,860个标注样本,涵盖了行级、段落级和整页级的多粒度文本图像与转录内容。其核心研究问题聚焦于如何利用混合内容样本提升对古老、弯曲文本行的识别鲁棒性,从而推动撒玛利亚希伯来语这一濒危文字的历史文献保护与数字化进程,为文化遗产计算研究提供了重要资源。
当前挑战
该数据集致力于解决撒玛利亚希伯来语手稿光学字符识别的特定领域挑战,包括古老手稿中常见的文本行弯曲、墨迹褪化及版面复杂性问题。构建过程中面临的挑战主要源于数据预处理环节:首先,从PAGE-XML格式中精确提取多边形掩码以裁剪弯曲文本行,需处理坐标对齐与图像变形的技术难题;其次,将撒玛利亚文字转写为希伯来字符的Unicode规范化过程,必须确保转录文本的语义一致性与编码准确性;此外,手稿图像质量参差不齐、保存状态各异,亦对数据清洗与样本均衡提出了较高要求。
常用场景
经典使用场景
在历史文献数字化领域,Samaritan Hebrew OCR数据集为光学字符识别模型的微调提供了专门资源。该数据集通过从撒马利亚希伯来语手稿中提取的46,860个标注样本,涵盖了行级、段落级和整页级的多粒度图像-文本对,其设计灵感来源于IAM等混合内容数据集,旨在支持模型从不同层次学习手稿的视觉与文本特征。这种结构使得研究人员能够针对撒马利亚希伯来语手稿的独特曲线文本行和多行上下文进行鲁棒的OCR模型训练,尤其适用于处理历史文档中常见的复杂版式和字体变异。
实际应用
在实际应用中,该数据集直接支持撒马利亚希伯来语历史手稿的大规模数字化与文本化工程。通过微调如LightOnOCR-2等预训练模型,能够构建专门针对古代希伯来语手稿的自动化转录系统,应用于图书馆、档案馆及博物馆的馆藏数字化项目。这不仅提升了手稿内容的可检索性和可访问性,也为语言学家、历史学家和宗教学者提供了机器可读的文本语料,助力于文本挖掘、风格分析和历史语言变迁研究。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。基于其多粒度样本结构,研究者开发了针对曲线文本行和段落上下文感知的OCR模型架构改进。在数据集构建方法上,其从PAGE-XML到LightOnOCR格式的转换流程为其他历史文档数据集的创建提供了参考模板。同时,结合该数据集训练的模型已在撒马利亚希伯来语文稿的自动校勘、词汇统计与版本比较等任务中得到应用,进一步推动了数字人文领域中对濒危或小众历史文字的处理技术发展。
以上内容由遇见数据集搜集并总结生成



