ocr-mldr

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/Psychias/ocr-mldr

下载链接

链接失效反馈

官方服务：

资源简介：

OCR-MLDR数据集是Multi Long Document Retrieval (MLDR)基准的OCR降级版本，旨在评估嵌入模型在带有长文档的噪声OCR类文本上的性能。该数据集从`mteb/MultiLongDocRetrieval`的测试集中抽取了每种语言2,000篇文档的子样本，每篇文档和查询被渲染为特定DPI/字体大小的PDF，并通过OCR模拟器重新提取，以引入真实的字符级噪声。数据集同时提供原始干净文本和OCR噪声文本，以及原始的MLDR相关性判断 (qrels)。数据集包含多种配置，分别对应不同的质量级别（低质量-高噪声、中等质量、高质量-低噪声），支持的语言包括德语、英语、西班牙语、法语、俄语和阿拉伯语。每种语言和DPI组合提供三种配置：语料库、查询和相关性判断。数据集规模为每种语言2,000篇文档，查询数量因语言而异。该数据集适用于信息检索任务，特别是针对噪声文本的嵌入模型评估。评估模式包括干净文本、OCR噪声文本以及混合模式，支持多种评估指标如NDCG@10、MRR@10和Recall@100。数据集还提供了字符错误率 (CER)的详细统计，帮助用户了解不同语言和DPI设置下的噪声水平。

The OCR-MLDR dataset is an OCR-degraded version of the Multi Long Document Retrieval (MLDR) benchmark, designed to evaluate the performance of embedding models on noisy OCR-like text with long documents. The dataset subsamples 2,000 documents per language from the test set of `mteb/MultiLongDocRetrieval`, with each document and query rendered as a PDF at a specific DPI/font size and re-extracted via an OCR simulator to introduce realistic character-level noise. The dataset provides both the original clean text and the OCR-noised text, along with the original MLDR relevance judgments (qrels). The dataset includes multiple configurations corresponding to different quality levels (low quality-high noise, medium quality, high quality-low noise) and supports languages such as German, English, Spanish, French, Russian, and Arabic. Each language and DPI combination offers three configurations: corpus, queries, and relevance judgments. The dataset size is 2,000 documents per language, with the number of queries varying by language. The dataset is suitable for information retrieval tasks, particularly for evaluating embedding models on noisy text. Evaluation modes include clean text, OCR-noised text, and mixed modes, supporting various metrics such as NDCG@10, MRR@10, and Recall@100. The dataset also provides detailed statistics on character error rate (CER) to help users understand the noise levels under different languages and DPI settings.

创建时间：

2026-04-24

原始信息汇总

OCR-MLDR 数据集概述

基本信息

数据集地址: https://huggingface.co/datasets/Psychias/ocr-mldr
语言: 德语(de)、英语(en)、西班牙语(es)、法语(fr)、俄语(ru)、阿拉伯语(ar)
任务类别: 文本检索(text-retrieval)
标签: ocr、信息检索、噪声文本、mldr、基准测试、ocr模拟
数据规模: 10,000 < n < 100,000

数据集描述

OCR-MLDR 是 Multi Long Document Retrieval (MLDR) 基准测试的 OCR 退化版本，专门设计用于评估嵌入模型在处理带有噪声的类OCR长文本时的性能。

每个语言从 mteb/MultiLongDocRetrieval（测试集）中抽取了 2,000 篇文档作为子样本。每个段落和查询都被渲染为特定DPI/字体大小的PDF，然后通过OCR模拟器使用Tesseract重新提取文本，引入逼真的字符级噪声。数据集同时提供原始干净文本和OCR噪声文本，以及原始的MLDR相关性判断（qrels）。

配置说明

分辨率与噪声配置

配置	DPI	字体大小	描述
`{语言}_dpi120_font10`	120	10 pt	低质量 — 高噪声
`{语言}_dpi130_font10`	130	10 pt	中等质量
`{语言}_dpi300_font12`	300	12 pt	高质量 — 低噪声

语言覆盖范围：de、en、es、fr、ru（其中 ar 仅适用于 dpi300_font12 配置）

每个语言/DPI的配置项

每个（语言，DPI）组合提供三种配置：

配置	列	描述
`{语言}_{dpi}_corpus`	`_id`, `clean_text`, `ocr_text`	长文档段落
`{语言}_{dpi}_queries`	`_id`, `clean_text`, `ocr_text`	搜索查询
`{语言}_{dpi}_qrels`	`query_id`, `corpus_id`, `score`	相关性判断

所有配置均使用单一分割：test。

样本数量（每语言2,000篇语料文档）

语言	语料文档数	查询数
de	2,000	~200
en	2,000	~800
es	2,000	~200
fr	2,000	~200
ru	2,000	~200

评估模式

模式	语料	查询	目的
`clean`	clean_text	clean_text	上界（无OCR噪声）
`ocr`	ocr_text	ocr_text	真实全OCR场景
`clean2ocr`	clean_text	ocr_text	噪声用户查询对干净索引
`ocr2clean`	ocr_text	clean_text	干净查询对噪声OCR索引

评估指标

NDCG@10 — 归一化折损累计增益
MRR@10 — 平均倒数排名
Recall@100

字符错误率（CER）摘要

dpi120_font10（低质量）

语言	语料CER	查询CER	语料文档数	查询数
de	15.4%	8.9%	2,000	200
en	11.0%	9.1%	2,000	800
es	9.4%	6.7%	2,000	200
fr	11.6%	10.1%	2,000	200
ru	12.3%	7.3%	2,000	200

dpi130_font10（中等质量）

语言	语料CER	查询CER	语料文档数	查询数
en	6.7%	4.6%	2,000	800
ru	8.5%	4.6%	2,000	200

dpi300_font12（高质量）

语言	语料CER	查询CER	语料文档数	查询数
ru	4.9%	1.9%	2,000	200

CER摘要也可作为HF配置使用：cer_summary_dpi120_font10、cer_summary_dpi130_font10、cer_summary_dpi300_font12。

引用

如果使用此数据集，请引用MLDR：

bibtex @misc{chen2024bge, title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu}, year={2024}, eprint={2402.03216}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

OCR-MLDR数据集是基于多语言长文档检索基准MLDR的OCR退化版本构建而成。构建过程首先从MLDR测试集中为每种语言抽取2000篇文档子集，随后利用OCR模拟器将每段文本和查询渲染为特定DPI与字体大小的PDF文件，再通过Tesseract光学字符识别技术重新提取文本，从而引入逼真的字符级噪声。数据集同时保留了原始干净文本与OCR噪声文本，并附带原始的MLDR相关性判断数据，形成多语言、多退化程度的检索评测资源。

特点

该数据集覆盖德语、英语、西班牙语、法语、俄语及阿拉伯语六种语言，并提供了dpi120_font10、dpi130_font10、dpi300_font12三种不同质量配置，分别对应高、中、低噪声水平。每种配置均包含语料库、查询集与相关性判断三个子集，其中语料库和查询均同时提供干净与OCR噪声版本，字符错误率从高噪声配置的15.4%到低噪声配置的4.9%不等，为评估嵌入模型在真实OCR退化场景下的鲁棒性提供了系统化的基准。

使用方法

用户可通过Hugging Face Datasets库加载指定语言和DPI配置的语料、查询与判断数据，例如使用load_dataset函数按data_dir参数指定配置子目录。数据集支持四种评估模式：clean（干净文本检索上限）、ocr（全OCR退化场景）、clean2ocr（噪声查询与干净索引）及ocr2clean（干净查询与噪声索引），并通过关联的evaluation_IR.py脚本实现批量评估，计算NDCG@10、MRR@10和Recall@100等标准指标，便于对比不同嵌入模型在不同噪声条件下的检索性能。

背景与挑战

背景概述

OCR-MLDR数据集由Psychias团队于2024年依托多语言长文档检索基准MLDR创建，旨在系统性评估嵌入模型在受光学字符识别（OCR）噪声干扰下的检索性能。该数据集针对信息检索领域中文档数字化过程中普遍存在的字符级噪声问题，通过模拟不同质量等级（如低质量dpi120_font10、高质量dpi300_font12）的OCR退化过程，为多语言、长文本场景下的鲁棒性嵌入模型研究提供了标准化评估平台。其影响力体现在连接了OCR领域与密集检索研究，填补了真实噪声环境下嵌入模型表现评估的空白，推动了诸如noisy-text检索等方向的发展。

当前挑战

该数据集面临的挑战包括：1）领域问题层面，OCR噪声导致的长文档中字符错误、单词断裂与合并现象，严重干扰了基于干净文本训练的嵌入模型对语义的准确捕捉，如何在低质量OCR场景下保持检索的准确性和排序质量是核心难题。2）构建过程中，对不同语言（如德语、阿拉伯语）及DPI设置下噪声生成参数（如字体、分辨率）的精细调控，需平衡模拟真实性与样本多样性；同时确保原始干净文本与OCR噪声文本的一一对应，并保证2000篇长文档样本的跨语言一致性，对数据管道稳健性提出了较高要求。

常用场景

经典使用场景

在信息检索与自然语言处理领域，OCR-MLDR数据集被广泛用于评估和提升多语言文本嵌入模型在光学字符识别（OCR）噪声环境下的鲁棒性。研究人员通过在该数据集上测试模型在低、中、高三种不同DPI及字体大小配置下的检索性能，模拟真实世界中因扫描文档质量参差而引入的字符级错误。该数据集提供了六种语言（德语、英语、西班牙语、法语、俄语及阿拉伯语）的干净文本与OCR噪声文本对照，使得对嵌入模型抗噪能力的量化评估成为可能，尤其适用于长文档检索场景下的跨语言和跨质量等级的性能分析。

实际应用

在实际应用中，OCR-MLDR数据集直接服务于数字人文、档案数字化及大规模历史文档检索等场景。图书馆、档案馆及内容管理平台常面临因扫描质量不佳导致的检索精度下降问题，该数据集提供的多语言、多质量等级的测试手段，可用于筛选或微调最适合特定OCR环境下的嵌入模型。例如，在低分辨率扫描的古旧文献检索系统部署前，利用该数据集的低DPI配置进行预评估，能有效预测系统在实际环境中的性能表现，从而指导模型选型与预处理策略优化，显著提升非结构化文本的发现能力与用户体验。

衍生相关工作

OCR-MLDR数据集的构建推动了多个相关研究方向的进展。其姊妹数据集OCR-MIRACL将相同的噪声生成管线应用于MIRACL基准，扩展了短文本检索中的噪声鲁棒性测试。基于该数据集的评估框架，研究者陆续开发了针对OCR噪声的嵌入模型微调策略、噪声自适应重排序算法以及跨模态特征融合方法。此外，该数据集启发了对字符级噪声与语义表示之间映射关系的深入探索，催生了如噪声感知对比学习和多任务联合训练等一系列经典工作，这些工作共同构成了面向退化文本的神经检索技术体系。

以上内容由遇见数据集搜集并总结生成