GlotOCR Bench
收藏arXiv2026-04-15 更新2026-04-16 收录
下载链接:
https://hf.co/datasets/cis-lmu/glotocr-bench
下载链接
链接失效反馈官方服务:
资源简介:
GlotOCR Bench是由慕尼黑大学等机构联合构建的OCR基准测试数据集,覆盖158种Unicode文字脚本。该数据集包含从真实多语言文本渲染的16,375条样本,提供干净与退化两种图像变体,采用Google Fonts字体库并经过HarfBuzz字形处理和FreeType栅格化。数据来源包括GlotLID v3语料、维基词典及公共爬虫文本,经人工审核确保跨脚本渲染准确性。该数据集旨在系统性评估OCR模型在低资源文字(如埃塞俄比亚文、高棉文)上的泛化能力,解决当前技术对非拉丁/CJK文字识别性能骤降的问题,推动文化遗产数字化和语言学研究。
GlotOCR Bench is an OCR benchmark dataset jointly developed by the University of Munich and other institutions, covering 158 Unicode writing scripts. It contains 16,375 samples rendered from real multilingual texts, and provides two types of image variants: clean and degraded. The dataset adopts the Google Fonts library, and undergoes HarfBuzz glyph processing and FreeType rasterization. Its data sources include the GlotLID v3 corpus, Wiktionary, and publicly crawled texts, which have been manually reviewed to ensure the accuracy of cross-script rendering. This dataset aims to systematically evaluate the generalization capabilities of OCR models on low-resource writing scripts (e.g., Ethiopic, Khmer), address the current problem of sharp performance degradation in non-Latin/CJK text recognition, and facilitate the digitalization of cultural heritage and linguistic research.
提供机构:
慕尼黑大学; 慕尼黑工业大学; MCML; 索邦大学 & CNRS, ISIR
创建时间:
2026-04-15
原始信息汇总
GlotOCR-bench 数据集概述
数据集基本信息
- 数据集名称: GlotOCR-bench
- 创建者/机构: CIS, LMU Munich
- 数据集地址: https://hf.co/datasets/cis-lmu/glotocr-bench
- 点赞数: 3
- 关注者: 72
- 上月下载量: 25
- 总文件大小: 5.85 GB
任务与模态
- 任务: Image-to-Text
- 模态: Image, Text
数据规格
- 格式: parquet, optimized-parquet
- 语言: English, Russian, Chinese, + 5
- 数据量级: 10K - 100K
- 图像数量: 16375 张
- 覆盖范围: 158 种书写系统 (+2000 种语言)
标签与库
- 标签: text, image, ocr
- 库: Datasets, Dask, Polars, + 1
许可信息
- 许可证: open-evaluation
- 具体条款:
- 数据集发布遵循 GlotOCR Open Evaluation License v1.0。
- GlotOCR-bench 元数据采用 CC0-1.0 许可。
- 用于生成图像的文本来源于 GlotLID 仓库,每个文本均附带
source标签并保留其原有许可。 - 允许用途:评估与基准测试、内部研究。
- 禁止用途:训练或微调模型(商业或非商业)、使用此数据创建训练数据集。
- 该数据集仅用于评估目的。
相关资源
- 论文: GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts
- ArXiv ID: arxiv: 2604.12978
- 代码许可证: Apache-2.0
- 联系方式: amir@cis.lmu.de
引用信息
bibtex @misc{kargaran2026glotocrbench, title={GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts}, author={Amir Hossein Kargaran and Nafiseh Nikeghbal and Jana Diesner and François Yvon and Hinrich Schütze}, year={2026}, eprint={2604.12978}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.12978}, }
所属集合
- 集合名称: GlotSuite
- 集合描述: GlotSuite: Paving the Way for Bringing Generative AI to Underserved Communities
- 集合项目数: 17 项
搜集汇总
数据集介绍

构建方式
在光学字符识别领域,评估模型性能长期局限于少数高资源文字体系,GlotOCR Bench的构建旨在填补这一空白。该数据集从真实多语言文本中采样,覆盖158种Unicode文字体系,每句文本均生成清晰与退化两种图像变体。文本来源广泛整合了GlotLID v3、Wiktionary、WikiSource等公开语料,并利用Google Fonts的字体库,通过HarfBuzz进行字形排布、FreeType进行栅格化渲染,确保双向文字的正确呈现。构建过程中对每种文字体系的渲染图像进行了人工审核,以验证跨文字体系视觉呈现的准确性,从而形成了兼具广度与严谨性的基准数据集。
特点
GlotOCR Bench的核心特点在于其前所未有的文字体系覆盖广度与精心设计的评估维度。数据集依据文字体系在网络内容中的普及度,明确划分为高资源、中资源与低资源三个层级,其中低资源层级涵盖148种文字体系,揭示了当前OCR模型泛化能力的真实边界。其评估框架不仅包含字符错误率等传统指标,更创新性地引入了文字体系准确率,用以诊断模型在面对陌生文字时的跨文字幻觉现象。数据集提供的清晰与退化图像变体,能够系统评估模型在不同图像质量下的鲁棒性,为全面理解OCR模型的性能瓶颈提供了多维视角。
使用方法
GlotOCR Bench主要作为评估基准,用于零样本测试各类视觉语言模型在广泛文字体系上的OCR性能。研究人员可通过其公开的推理流程,将模型输出的转录文本与数据集中提供的真实文本进行比对,计算字符错误率、Acc@5及文字体系准确率等核心指标。数据集在Hugging Face平台以仅限评估的许可协议发布,禁止用于模型训练,但其渲染管道以Apache 2.0协议单独开源,允许研究者基于不同的种子文本生成训练数据。这种设计既保障了基准评估的公正性与可复现性,也为针对低资源文字体系的模型适应性研究提供了数据生成工具。
背景与挑战
背景概述
光学字符识别(OCR)作为模式识别领域的经典问题,其评估实践长期以来聚焦于拉丁、中日韩等少数高资源文字体系,导致对全球Unicode标准所涵盖的丰富文字多样性缺乏系统性考察。GlotOCR Bench由慕尼黑大学、慕尼黑工业大学及索邦大学等机构的研究团队于2026年提出,旨在填补这一空白。该数据集构建了一个覆盖158种Unicode文字的综合评测基准,包含从真实多语言文本渲染生成的洁净与退化图像变体。其核心研究问题在于系统评估当前OCR模型在超越主流文字体系时的泛化能力,揭示模型对低资源文字的实际识别局限,从而推动OCR技术向更全面的文字覆盖方向发展,对历史语言学、文化遗产数字化及低资源语言信息处理具有深远影响。
当前挑战
GlotOCR Bench所针对的领域挑战在于解决OCR模型对低资源Unicode文字体系识别能力严重不足的问题。评估表明,即使前沿模型在拉丁文字上表现优异,但在148种低资源文字上的识别准确率普遍低于10%,模型往往无法识别陌生文字,转而输出其训练数据中相似的高资源文字字符,即产生跨文字幻觉。在数据集构建过程中,挑战主要体现在多文字语料收集与验证、确保字体对稀有文字字形渲染的正确性,以及模拟真实文档退化效应等方面。研究者需从GlotLID、Wiktionary等多源渠道整合句子级文本,并利用HarfBuzz与FreeType进行文字形塑与栅格化,同时通过人工审核确保跨所有文字的图像渲染准确性,这些步骤对数据工程的广度与精度提出了极高要求。
常用场景
经典使用场景
在光学字符识别领域,评估模型性能的传统基准往往局限于拉丁、中日韩等少数高资源文字体系,难以全面反映模型在多样化书写系统上的泛化能力。GlotOCR Bench作为首个覆盖158种Unicode文字体系的综合性基准,其经典使用场景在于系统评估前沿视觉语言模型在低资源文字上的识别性能。该基准通过从真实多语言文本中采样句子,并利用Google Fonts字体库结合HarfBuzz和FreeType技术渲染生成干净与退化两种图像变体,模拟了实际文档中的复杂条件。研究者可借助这一基准深入分析模型在不同文字体系上的表现差异,揭示当前OCR技术在处理非主流书写系统时的根本性局限。
衍生相关工作
GlotOCR Bench的发布催生了一系列关注低资源文字OCR的研究方向。在基准构建方法论上,其基于真实文本采样与严格字体验证的流程为后续多文字数据集(如扩展版CC-OCR、OmniDocBench)提供了技术范本。在模型改进方面,研究团队基于该基准发现的跨文字幻觉现象,推动了如dots.ocr系列模型在架构设计中增强文字感知能力,以及OmniOCR等工作中采用动态LoRA适配策略专门针对少数民族文字进行优化。同时,该基准促成了KITAB-Bench等针对特定文字家族(如阿拉伯文)的深度评估工作,形成了从全局普查到专项突破的研究脉络,整体提升了OCR领域对文字多样性的重视程度。
数据集最近研究
最新研究方向
在光学字符识别领域,GlotOCR Bench的推出标志着对多脚本泛化能力评估的重要突破。该数据集覆盖158种Unicode文字系统,通过清洁与退化图像变体揭示了当前视觉语言模型在低资源文字上的严重局限。前沿研究聚焦于跨文字幻觉现象,即模型面对陌生文字时倾向于输出已知文字系统的字符,而非保持沉默或表示不确定性。这一发现凸显了预训练数据覆盖范围对OCR性能的决定性影响,促使学术界重新审视模型在文字识别中对语言模型依赖与视觉特征提取的平衡。相关热点事件包括对少数民族文字数字化保存的迫切需求,以及大规模多语言文档数字化项目中OCR技术瓶颈的凸显。该数据集的影响在于为低资源文字识别提供了标准化评估基准,推动了OCR技术向更广泛文字系统的扩展,对语言学、文化遗产保护及全球信息公平获取具有深远意义。
相关研究论文
- 1GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts慕尼黑大学; 慕尼黑工业大学; MCML; 索邦大学 & CNRS, ISIR · 2026年
以上内容由遇见数据集搜集并总结生成



