Aerbote88/nom-ocr-data
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Aerbote88/nom-ocr-data
下载链接
链接失效反馈官方服务:
资源简介:
一个用于OCR训练的历史Hán-Nôm手稿页面语料库。每页包含高分辨率图像、每个字符的边界框及校正后的文本标签、来自两个上游OCR引擎(Kandianguji和Nôm Na Việt)的候选替代、阅读顺序的列多边形(文本/装订/边注/注释)以及每个字符的不确定性/IDS/标注者注释元数据。数据集由Albert Errickson整理,自筹资金,共享语言为越南语(vi)和文言文(lzh),脚本为Han + Nôm(CJK统一表意文字 + CJK扩展B SIP字符)。
A corpus of historical Hán-Nôm manuscript pages annotated for OCR training. Each page has a high-resolution image, per-character bounding boxes with corrected text labels, candidate alternates from two upstream OCR engines (Kandianguji and Nôm Na Việt), reading-order column polygons (text / binding / marginalia / commentary), and per-character uncertainty / IDS / labeler-note metadata. Curated by Albert Errickson, self-funded, shared in Vietnamese (vi) and Literary Chinese (lzh) languages, with Han + Nôm script (CJK Unified Ideographs + CJK Ext. B SIP characters).
提供机构:
Aerbote88
搜集汇总
数据集介绍

构建方式
nom-ocr-data数据集旨在填补越南汉喃(Hán-Nôm)古籍OCR训练数据稀缺的空白。其源图像源自哥伦比亚大学图书馆的汉喃中越数字馆藏,这些图像由越南喃字保护基金会(VNPF)于1999年至2018年间与国家图书馆合作数字化,并于2021年被哥伦比亚大学收购。数据集的标注采用半自动化流程:首先通过上游OCR引擎(Kandianguji和Nôm Na Việt)进行字符检测与初步识别,生成边界框及候选文本,随后由人工标注员在定制化的Next.js工作区中对每个字符进行逐字校正。标注过程中,所有页面均保留高分辨率图像、列多边形(区分文本、装订线、旁注与评注)、字符级置信度及标注者备注等元数据,最终导出为每页JSON格式,并衍生出字符、行与页面三个配置子集。
特点
该数据集的核心特色在于其多层次的精细化标注结构。它提供三种配置:'chars'包含单个字符的裁剪图像与标签,适用于字符分类器训练;'lines'提供旋转后的列条带图像与完整文本,面向行级识别模型如CRNN或TrOCR;'pages'则保留完整页面图像及所有列和字符的边界框、文本与置信度,适合布局分割或端到端OCR研究。尤为独特的是,数据集包含了字符的不确定性标记(low-confidence字符被标注为uncertain并默认从训练集中排除)、IDS占位符以处理Unicode未编码字符,以及四种列类型(文本、装订线、旁注、评注)的语义分割信息。所有标注均遵循CC-BY-4.0许可,且源图像与标注层分离,便于追溯归属。
使用方法
使用该数据集时,用户可通过Hugging Face Datasets库轻松加载三个子集:'chars'用于训练字符级识别器,'lines'用于行级光学模型(如CRNN、TrOCR或PyLaia),'pages'用于布局分析或全页端到端识别。每个子集均包含预分割的训练数据,无需额外处理。对于字符级任务,可利用'label'字段和'confidence'分数进行过滤;行级数据中'rotated'字段指示图像是否已旋转,'char_count'提供文本长度参考;页面级数据则包含'columns'与'chars'列表,支持自定义区域提取。建议用户按需选择子集,并参考标注工具仓库(即将发布)了解COCO分割与详细数据导出格式。需注意,低置信度及IDS占位符字符在训练中可能需特殊处理。
背景与挑战
背景概述
在历史文献数字化与计算人文研究日益兴盛的背景下,汉喃文字(Hán-Nôm,即越南古代使用的一种由汉字与自创喃字构成的复合书写系统)的光学字符识别(OCR)成为亟待突破的技术瓶颈。该数据集Nôm OCR Training Corpus由哥伦比亚大学的Albert Errickson于2026年创建,隶属于Digitizing Vietnam项目,依托越南喃字保护基金会(VNPF)自1999年至2018年间数字化拍摄的原始手稿影像,其中约1100份文本于2021年被哥伦比亚大学图书馆收藏。数据集聚焦于为汉喃手稿页提供高精度OCR训练标注,包括字符级边界框与校正后的文本标签、阅读顺序列多边形(区分正文、装订、旁注与评注)以及来自上游OCR引擎的候选字符。其发布填补了汉喃OCR领域公开训练数据稀缺的空白,为后续字符识别、行识别及版面分析模型的研究奠定了关键数据基础。
当前挑战
该数据集所应对的核心领域挑战在于汉喃文字系统的历史复杂性与字符编码的不完备性:大量喃字(尤其是CJK统一表意文字扩展B区字符)在Unicode中仍未编码,需依赖IDS(字形描述序列)占位符,导致下游模型必须设计专门的处理策略。同时,手稿页面常包含异体字、墨迹污损、列布局混合(如正文与评注交错)等复杂版面特征,极大提升了OCR检测与识别的难度。在构建工程层面,数据来源受限于三个典藏机构(越南国家图书馆、胜严寺与普严寺),存在明显的体裁与馆藏偏好,可能引入系统性偏置;且当前标注工作仅由单一人力完成,缺乏标注者间一致性度量,对标注质量的控制构成潜在隐忧。此外,由于上游OCR引擎(Kandianguji与Nôm Na Việt)的商业使用许可不完全透明,社区在将其用于大规模模型训练时需审慎核实授权边界。
常用场景
经典使用场景
在古籍数字化与文字识别领域,Nôm OCR Training Corpus(喃字OCR训练语料库)最经典的用途在于训练和微调针对越南古代喃字(Chữ Nôm)的手写体与雕版印刷体字符识别模型。该数据集提供了高分辨率页面图像、逐字符的边界框及其校正后的文本标签、阅读顺序的列级多边形标注(涵盖正文、装订线、旁注与评注),以及来自两个上游OCR引擎(Kandianguji与Nôm Na Việt)的候选字符和置信度信息。这些多层级、多模态的标注使其成为构建端到端喃字OCR系统的理想训练资源,尤其适用于基于CRNN、TrOCR或PyLaia等架构的行级识别模型,以及针对古籍版式分割的布局分析模型。
解决学术问题
该数据集直接回应的核心学术难题是:公开可用的喃字OCR训练数据极度匮乏,尤其是同时包含列级布局标注与标注者不确定性元数据的高质量资源。在它出现之前,研究者难以在统一的、可归因的语料库上训练字符识别、行识别与布局模型。nom-ocr-data通过提供从越南喃字保存基金会(VNPF)长达二十年数字化项目中精选的页面扫描,并叠加专家校正的OCR标注,有效弥补了这一缺口。它解决了古籍文本数字化中的关键瓶颈——如何让机器准确识别那些在Unicode中尚未完全编码、字形结构复杂的喃字,从而推动历史文献的自动化转录与大规模文本分析。
衍生相关工作
围绕这个数据集,衍生出了一系列富有影响力的研究脉络。其标注流程——半自动候选生成结合人工逐字校正——成为了小语种古籍OCR标注的一种范式。基于该数据集的字符级标注,研究者开发了专门针对CJK扩展B区(SIP范围)喃字的高效分类器,并探索了利用IDS(表意文字描述序列)表示未编码字符从而扩大模型词表的技术路径。行级和页面级配置则催生了针对越南古籍特有版式(如旁注与正文交错排列)的布局分析模型,这些模型通常结合了图像分割与序列-序列识别。此外,该数据集还作为基准,用于评测不同OCR引擎在喃字识别上的性能差异,并启发了一系列关于多标注者一致性、低资源场景下的迁移学习等问题的后续探讨。
以上内容由遇见数据集搜集并总结生成



