five

ocr-miracl

收藏
Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/Psychias/ocr-miracl
下载链接
链接失效反馈
官方服务:
资源简介:
OCR-MIRACL 是一个基于 MIRACL 多语言检索基准的 OCR 降级版本数据集,旨在评估嵌入模型在嘈杂、类似 OCR 文本上的性能。数据集包含五种语言(德语、英语、西班牙语、法语、俄语),每种语言从 MIRACL 的开发集中抽取了 2000 篇文档。每篇文档和查询被渲染为特定 DPI 和字体大小的 PDF,并通过 OCR 模拟器重新提取,以引入真实的字符级噪声。数据集提供了原始干净文本和 OCR 噪声文本,以及原始的 MIRACL 相关性判断(qrels)。数据集包含三种质量配置(低、中、高),每种配置下提供语料库、查询和相关性判断三个子集。数据集适用于文本检索任务,特别是对噪声文本的嵌入模型评估。
创建时间:
2026-04-24
原始信息汇总

OCR-MIRACL 数据集概述

OCR-MIRACL 是基于 MIRACL 多语言检索基准构建的 OCR 退化版本,旨在评估嵌入模型在含噪声、类 OCR 文本上的表现。

数据集描述

  • miracl/miracl 的 dev 分片中,按语言抽取每个语言 2,000 篇文档的子样本(英文除外)。
  • 将每个段落和查询以特定 DPI/字号设置渲染为 PDF,并通过 OCR 模拟器重新提取,引入真实的字符级噪声。
  • 同时提供原始干净文本OCR 噪声文本,以及原始 MIRACL 相关性判断(qrels)。

配置

配置 DPI 字号 描述
{lang}_dpi120_font10 120 10 pt 低质量 — 高噪声
{lang}_dpi130_font10 130 10 pt 中等质量
{lang}_dpi300_font12 300 12 pt 高质量 — 低噪声

支持语言: de、en、es、fr、ru

每种语言/DPI 组合的子配置

配置 描述
{lang}_{dpi}_corpus _id, clean_text, ocr_text 文档段落
{lang}_{dpi}_queries _id, clean_text, ocr_text 搜索查询
{lang}_{dpi}_qrels query_id, corpus_id, score 相关性判断

所有配置均使用单个分割:test

样本数量

语言 文档数 查询数
de 2,000 305
en 2,296 799
es 2,976 648
fr 2,000 343
ru 3,441 1,252

评估模式

模式 文档文本 查询文本 目的
clean clean_text clean_text 上限(无OCR噪声)
ocr ocr_text ocr_text 真实全OCR场景
clean2ocr clean_text ocr_text 含噪用户查询对干净索引
ocr2clean ocr_text clean_text 干净查询对含噪OCR索引

评估指标: NDCG@10, MRR@10, Recall@100

字符错误率(CER)摘要

dpi120_font10(低质量)

语言 文档 CER 查询 CER 文档数 查询数
de 12.8% 4.7% 2,000 305
en 9.4% 5.8% 2,296 799
es 8.8% 4.4% 2,976 648
fr 9.8% 7.1% 2,000 343
ru 10.1% 7.0% 3,441 1,252

dpi130_font10(中等质量)

语言 文档 CER 查询 CER 文档数 查询数
de 7.3% 4.0% 2,000 305
en 5.2% 2.9% 2,296 799
es 4.7% 2.9% 2,976 648
fr 5.7% 5.2% 2,000 343
ru 6.4% 5.7% 3,441 1,252

dpi300_font12(高质量)

语言 文档 CER 查询 CER 文档数 查询数
de 1.8% 1.2% 2,000 305
en 1.5% 0.9% 2,296 799
es 1.4% 0.7% 2,976 648
fr 1.8% 1.1% 2,000 343
ru 2.9% 3.0% 3,441 1,252

CER 摘要也可作为 HF 配置使用:cer_summary_dpi120_font10cer_summary_dpi130_font10cer_summary_dpi300_font12

OCR 噪声生成过程

  1. 文本按句子拆分。
  2. 每个句子在给定 DPI/字号下渲染为 PDF 图像(Pillow)。
  3. 通过 Tesseract 对图像进行 OCR 识别。
  4. 将句子重新合并为文档。

相关数据集

  • OCR-MLDR — 对 mteb/MultiLongDocRetrieval 应用相同的 OCR 噪声生成流程。
搜集汇总
数据集介绍
main_image_url
构建方式
OCR-MIRACL数据集以多语言检索基准MIRACL的验证集为基础,从每种语言中抽取2000至3441条文档片段及对应查询,构成样本。构建过程中,原始文本被渲染为特定DPI及字号设置下的PDF文件,随后借助ocr-robust-multilingual-embeddings项目中的OCR模拟器进行文字识别提取,从而引入逼真的字符级噪声。每个语言配置下均提供原始干净文本、经OCR降质后的噪声文本以及原始相关性标注(qrels),构成完整的检索评估数据。
特点
该数据集覆盖德语、英语、西班牙语、法语和俄语五种语言,并设计了三种噪声等级配置:低质量(dpi120_font10)的字符错误率(CER)可达9%至13%,中等质量(dpi130_font10)的CER约为5%至7%,高质量(dpi300_font12)的CER仅为1%至3%。数据集中每个文档与查询均包含清洁与噪声两个版本,既可用于评估模型在纯OCR场景下的鲁棒性,也支持清洁与噪声交叉组合的混合检索实验。
使用方法
用户可通过HuggingFace Datasets库加载各语言及各DPI配置下的语料、查询与qrels子集,例如以load_dataset函数指定data_dir参数访问对应配置。评估时,推荐使用sentence-transformers等嵌入模型对噪声文本进行编码,并借助余弦相似度检索计算NDCG@10、MRR@10及Recall@100等指标。项目中提供了完整的evaluation_IR.py脚本,支持一键遍历所有语言、DPI设置及清洁/噪声模式,自动保存结果至CSV文件。
背景与挑战
背景概述
OCR-MIRACL数据集诞生于多语言信息检索领域对噪声文本鲁棒性评估的迫切需求,由瑞士数字人文研究团体impresso联合多机构研究者于2023年创建,旨在系统性地度量OCR退化场景下嵌入模型的检索性能。该数据集以MIRACL多语言检索基准为蓝本,针对德语、英语、西班牙语、法语和俄语五种语言,通过模拟不同DPI与字体大小的OCR噪声,构建了包含低、中、高三种质量等级的真实字符级退化文本。作为首个聚焦OCR噪声的多语言检索基准,OCR-MIRACL填补了传统信息检索评估中对文档数字化过程中引入的识别错误缺乏系统性考量的空白,为噪声环境下嵌入模型的鲁棒性研究提供了标准化测试平台,其影响力已延伸至数字人文、历史文献检索和低资源语言处理等交叉领域。
当前挑战
该数据集主要应对两方面的挑战。其一,现实世界中大量历史文档与扫描资料因保存条件或设备限制而产生不同程度的OCR噪声,传统检索模型在干净文本上表现优异,却难以应对字符级替换、缺失等微畸变引发的语义偏移,使得跨语言信息检索在真实数字化场景中性能陡降。其二,构建过程中需设计可控的噪声生成流水线,包括将句子渲染为PDF图像、调用Tesseract光学字符识别引擎重提取文本,并确保噪声分布符合真实文档退化的统计特征;同时需平衡五种子语言的差异性,在保留原始MIRACL相关性判断的前提下,手动设定DPI与字号参数以模拟多元退化场景,最终实现从词形到句级的噪声模式可控复现。
常用场景
经典使用场景
OCR-MIRACL数据集专为评估多语言信息检索系统在光学字符识别(OCR)噪声环境下的鲁棒性而设计。其核心用途在于模拟现实场景中因文档数字化质量参差而导致的文本退化现象,通过将MIRACL基准测试中的查询与文档经由不同DPI和字体参数的PDF渲染后重新提取,引入层次化字符误差(CER从1.4%至12.8%不等)。研究者可借此基准测试嵌入模型在低质量扫描件、模糊印刷品或老旧数字档案等噪声源下的检索性能,尤其关注文本表示在字符残缺、混淆与缺失条件下的语义保持能力。
衍生相关工作
OCR-MIRACL的构建催生了若干重要衍生产品与方法论贡献。其噪声生成管线被复用于OCR-MLDR数据集,将相同OCR仿真流程迁移至多语言长文档检索场景,拓展了评估粒度。同行研究可基于该数据集提出域适应策略,如通过清洁与噪声文本的对比学习增强嵌入模型的抗噪性,或在检索过程中引入字符级置信度加权机制。此外,该数据集作为MIRACL基准的扩展,为后续探索文本退化与语言表示鲁棒性之间关系的工作奠定基础,推动了一系列关于OCR噪声注入、误差反向传播与端到端检索优化的学术讨论。
数据集最近研究
最新研究方向
OCR-MIRACL数据集聚焦于多语言检索场景下OCR噪声对嵌入模型鲁棒性的影响评估,通过模拟不同质量等级的文本退化过程(涵盖从低质量DPI120到高质量DPI300的三种噪声梯度),为信息检索领域提供了首个系统化的噪声文本检索基准。其在德语、英语、西班牙语、法语和俄语五语种上构建的2,000至3,441篇文档的平行语料库,配合四种评测模式(clean、ocr、clean2ocr、ocr2clean),使得研究者能够深入剖析嵌入向量在噪声环境下的表征退化机制。该数据集与近期国际数字人文项目中大规模文档数字化浪潮紧密呼应,尤其为图书馆自动化、历史档案检索等真实应用场景中面临的OCR错误文本处理难题提供了标准化评测平台,推动了多语言检索模型从理想化清洁文本向贴近现实的噪声场景的跨越。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作