nom-ocr-data
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/Aerbote88/nom-ocr-data
下载链接
链接失效反馈官方服务:
资源简介:
Nôm OCR训练语料库是一个专为OCR训练设计的历史性Hán-Nôm手稿数据集。该数据集包含高分辨率页面图像、字符级边界框及校正后的文本标签、来自两个上游OCR引擎(Kandianguji和Nôm Na Việt)的候选替代文本、阅读顺序列多边形(文本/装订/边注/评注)以及字符级不确定性/IDS/标注者注释元数据。数据集由Albert Errickson整理,自筹资金,语言为越南语(vi)和文言文(lzh),文字为汉字和喃字(CJK统一表意文字及CJK扩展B SIP字符)。数据集分为chars、lines和pages三种配置,分别用于字符分类器、行级识别器和布局模型的训练。数据来源包括哥伦比亚大学图书馆的Hán-Nôm越南语数字收藏,原始手稿由越南国家图书馆、Thắng Nghiêm寺和Phổ Nhân寺保管。数据集标注通过半自动流程生成,并经过人工校正。适用于训练喃字字符识别器、行级识别器和布局模型,但不适用于现代越南语OCR或非Hán-Nôm的CJK OCR任务。
创建时间:
2026-05-01
原始信息汇总
数据集概述:Nôm OCR Training Corpus
该数据集是一个用于光学字符识别(OCR)训练的历史汉喃(Hán-Nôm)手稿页面语料库,由Albert Errickson创建并维护,持续更新中。
核心信息
- 语言:越南语(vi)、文言文/汉字(lzh),文字为汉字 + 喃字(CJK统一表意文字 + CJK扩展B区SIP字符)。
- 许可证:注释部分采用CC-BY-4.0许可证。
- 规模:样本数量小于1000。
- 用途:专为汉喃字符识别、行级识别、版面模型训练而设计。
数据集结构
数据集包含三个配置(config),均源自相同的页面级JSON文件:
- chars(字符级别):每行一个字符,包含裁剪后的图像、标签、列类型、上游OCR置信度及来源信息。训练集共3117个样本。
- lines(行级别):每行一个文本列,包含旋转后的列条图像、完整转录及列元数据。训练集共388个样本。
- pages(页面级别):每行一个页面,包含全分辨率图像、所有列多边形、所有字符边界框/标签/置信度及拼接的原始文本。训练集共17个样本。
数据来源与创建
- 源图像:来自哥伦比亚大学图书馆的汉喃中越数字馆藏,原始数字化工作由越南喃字保护基金会(1999–2018)与国家图书馆合作完成,手稿原件藏于越南国家图书馆、承严寺和普仁寺。
- 注释流程:半自动化生成。先由Kandianguji和Nôm Na Việt两个上游OCR引擎进行字符检测与识别,再由人工标注者对每个字符进行校正,并记录不确定字符和注释。列多边形与阅读顺序也经半自动化生成和人工校正。
- 标注者:目前由单一标注者(Albert Errickson)完成。
主要用途
- 直接用途:
- 训练/微调喃字符识别器。
- 训练行级识别器(如CRNN、TrOCR、PyLaia)。
- 训练木刻版面的布局/分割模型(区分正文、装订、页边注、评注)。
- 评估现有汉喃OCR系统。
- 超出范围的使用:
- 现代越南语(国语字)OCR。
- 非汉喃的CJK OCR(如日语假名、现代简体中文)。
- 作者/抄写员归属或年代测定。
- 通用文档AI预训练(针对现代版面)。
偏见、风险与局限性
- 来源偏差:手稿来自三个机构,可能某些文本类型被过度呈现。
- 单一标注者:缺乏标注者间一致性指标。
- 未编码字符:部分字符在Unicode中无编码,以IDS占位符表示,下游模型需自行处理。
引用格式
-
BibTeX: bibtex @misc{errickson2026nomocr, title = {Nôm OCR Training Corpus}, author = {Errickson, Albert}, year = {2026}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/aerbote88/nom-ocr-data} }
-
APA: Errickson, A. (2026). Nôm OCR Training Corpus [Data set]. Hugging Face. https://huggingface.co/datasets/aerbote88/nom-ocr-data
联系方式
- 数据集卡作者与联系人:Albert Errickson,邮箱:aee2126@columbia.edu
搜集汇总
数据集介绍

构建方式
Nôm OCR Training Corpus(简称nom-ocr-data)是针对越南古代汉喃文献的OCR训练语料库,其构建过程融合了前沿的自动化技术与严谨的人工核验。数据集中的页面图像源自哥伦比亚大学图书馆所藏的越南喃字数字馆藏,这些珍贵文献的数字化扫描工作由越南喃字保护基金会与越南国家图书馆合作完成。标注流程首先利用两个上游OCR引擎(Kandianguji与Nôm Na Việt)对页面进行初步的字符检测与识别,生成候选框与候选字符;随后,标注人员在定制的Next.js工作区中对每一个字符进行人工校正,并为低置信度字符添加不确定性标记。列级多边形(如正文、装订线、边注、注释)的阅读顺序也通过半自动化方式生成并经人工修正。最终,所有注释以每页JSON格式存储,并导出为三个面向不同任务的子集:chars(字符级)、lines(行级)与pages(页面级),共同构成了兼具深度与精度的OCR训练资源。
特点
该数据集具有鲜明的专业特性与结构精巧的多层次设计。其核心特色在于覆盖了三种粒度的标注信息:字符级数据提供裁剪后的字符图像、标签及上游OCR置信度,适用于字符分类器的训练;行级数据提供旋转后的列条带图像与完整转录文本,支持CRNN、TrOCR等行级识别模型;页面级数据则囊括全分辨率页面图像、列多边形、所有字符边界框与标签,为布局分析或端到端OCR系统提供丰富信息。尤为珍贵的是,数据集包含了丰富的元数据字段,如每字符的不确定性标记、来源信息的slug标识、列种类(正文/装订线/边注/注释)以及字符偏移量,这些细节为模型评估与错误分析提供了坚实支撑。此外,数据集遵循CC-BY-4.0许可协议,并清晰追溯了每份源文档的馆藏机构与数字化序列,确保了学术引用的严谨性。
使用方法
使用者可根据下游任务灵活选择数据集的三个子配置。对于强调字符级识别的应用,如汉喃字分类器训练,建议直接加载chars配置,其中每行包含裁剪后的字符图像(image)及其标注字符串(label),并辅以上游置信度信息以过滤噪声。面向行级OCR任务时,推荐采用lines配置,利用旋转校正后的列图像(image)与完整转录文本(text),并借助char_count字段评估序列长度,结合rotated标志了解图像是否经过旋转变换,以适配模型输入预处理。若要训练布局分割模型或开展端到端的OCR实验,pages配置最为适宜,其提供了全页图像、列多边形与字符边界框的列表,以及拼接后的原始文本。加载示例可通过Hugging Face的datasets库直接实现,如使用load_dataset('aerbote88/nom-ocr-data', 'lines')即可获取行级数据,并可通过split参数指定训练划分。
背景与挑战
背景概述
在历史文档数字化与古籍文字识别领域,汉喃文字(Hán-Nôm)作为越南古代官方书写系统,融合了汉字与本土创制字符,其字符集庞大且包含大量Unicode扩展B区以外的编码,使得光学字符识别(OCR)任务极具挑战性。由哥伦比亚大学图书馆研究员Albert Errickson主导,依托“Digitizing Vietnam”项目与越南喃字保存基金会(VNPF)长达二十年(1999–2018)的数字化遗产,于2026年发布的Nôm OCR Training Corpus(nom-ocr-data),旨在填补汉喃OCR训练数据稀缺的空白。该数据集包含17张高分辨率手稿页面、3117个字符样本及388条文本列,提供字符级边界框、阅读顺序列多边形及人工校对标签,为训练字符分类器、行级识别器(如CRNN、TrOCR)及版面布局模型提供了首个可归因的基准语料,对推动濒危古籍文字自动化解析具有里程碑意义。
当前挑战
该数据集面临多重技术挑战。领域层面,汉喃字符集存在大量未编码字形(需使用IDS描述序列表示),且手稿中文本、装订线、旁注与注释列的混合布局极其复杂,对OCR系统的细粒度区分能力提出严苛要求。构建过程中,单标注者模式导致缺乏标注者间一致性度量指标,可能引入主观偏差;上游OCR引擎(Kandianguji与Nôm Na Việt)的初始检测结果存在字符碎片化与误识别问题,人工标注需在多变笔迹与损坏页面中逐字校正,耗时且易遗漏低置信度字符。此外,原始扫描件来自三个不同机构的馆藏,文本类型存在体裁偏好,可能限制模型的泛化能力至特定文献风格。
常用场景
经典使用场景
该数据集专为历史汉喃文献的自动化识别而生,核心用途聚焦于光学字符识别(OCR)模型的训练与精调。其经典的运用路径涵盖三大层次:其一,利用字符级配置(chars)构建端到端的单字分类器,实现对喃字(chữ Nôm)和汉字的精准辨识;其二,依托行级配置(lines)驱动CRNN、TrOCR、PyLaia等序列识别模型,完成对旋转列条带文本的转录;其三,凭借页面级配置(pages)训练布局分割模型,自动区分正文、装订线、眉批与注释栏。这一多粒度设计使得研究人员能够从字符、行文与版面三个维度协同优化,显著提升对复杂木刻版式古籍的OCR性能。
解决学术问题
该数据集直面的学术核心挑战,在于汉喃文献数字化领域长期面临的高质量标注数据匮乏之困境。传统OCR训练语料多面向现代印刷体,古文字形变多样、生僻字众多且字形结构复杂的喃字,在现有数据集与模型中常遭遇识别瓶颈。该作品精准锚定这一薄弱环节,通过提供带有列级布局标签、逐字边界框及人工校正标签的标注语料,填补了面向历史手抄本的OCR训练空白。其学术影响体现在:为喃字字符识别、行列式转录与版面理解三大任务搭建了统一的基准平台,催生了对古籍文本多模态特征的系统性研究,从而推动了东南亚地区文化遗产数字化保护的进程。
衍生相关工作
围绕该数据集已经衍生出若干值得关注的经典工作路径。研究团队先是基于其字符级标注,开发了面向Unicode中CJK扩展B区生僻字的IDS(表意文字描述序列)表示方案,解决了部分未编码喃字的建模问题。随后又在其行级配置上验证了基于视觉Transformer的端到端识别管线,证明了针对历史手写风格的字形泛化能力。另有工作将其页面级版式信息融入基于图神经网络的版面分析模型,实现了对木刻古籍中混合栏类(文本、装订线、旁注)的鲁棒分割。此外,该数据集的单标注员工作流程也引发了关于低资源场景下主动学习策略的研究,探索如何以最小人工代价扩展标注规模。这些衍进共同构成了一个聚焦汉喃领域的开放研究生态。
以上内容由遇见数据集搜集并总结生成



