ocr-mldr
收藏OCR-MLDR 数据集概述
基本信息
- 数据集地址: https://huggingface.co/datasets/Psychias/ocr-mldr
- 语言: 德语(de)、英语(en)、西班牙语(es)、法语(fr)、俄语(ru)、阿拉伯语(ar)
- 任务类别: 文本检索(text-retrieval)
- 标签: ocr、信息检索、噪声文本、mldr、基准测试、ocr模拟
- 数据规模: 10,000 < n < 100,000
数据集描述
OCR-MLDR 是 Multi Long Document Retrieval (MLDR) 基准测试的 OCR 退化版本,专门设计用于评估嵌入模型在处理带有噪声的类OCR长文本时的性能。
每个语言从 mteb/MultiLongDocRetrieval(测试集)中抽取了 2,000 篇文档作为子样本。每个段落和查询都被渲染为特定DPI/字体大小的PDF,然后通过OCR模拟器使用Tesseract重新提取文本,引入逼真的字符级噪声。数据集同时提供原始干净文本和OCR噪声文本,以及原始的MLDR相关性判断(qrels)。
配置说明
分辨率与噪声配置
| 配置 | DPI | 字体大小 | 描述 |
|---|---|---|---|
{语言}_dpi120_font10 |
120 | 10 pt | 低质量 — 高噪声 |
{语言}_dpi130_font10 |
130 | 10 pt | 中等质量 |
{语言}_dpi300_font12 |
300 | 12 pt | 高质量 — 低噪声 |
语言覆盖范围:de、en、es、fr、ru(其中 ar 仅适用于 dpi300_font12 配置)
每个语言/DPI的配置项
每个(语言,DPI)组合提供三种配置:
| 配置 | 列 | 描述 |
|---|---|---|
{语言}_{dpi}_corpus |
_id, clean_text, ocr_text |
长文档段落 |
{语言}_{dpi}_queries |
_id, clean_text, ocr_text |
搜索查询 |
{语言}_{dpi}_qrels |
query_id, corpus_id, score |
相关性判断 |
所有配置均使用单一分割:test。
样本数量(每语言2,000篇语料文档)
| 语言 | 语料文档数 | 查询数 |
|---|---|---|
| de | 2,000 | ~200 |
| en | 2,000 | ~800 |
| es | 2,000 | ~200 |
| fr | 2,000 | ~200 |
| ru | 2,000 | ~200 |
评估模式
| 模式 | 语料 | 查询 | 目的 |
|---|---|---|---|
clean |
clean_text | clean_text | 上界(无OCR噪声) |
ocr |
ocr_text | ocr_text | 真实全OCR场景 |
clean2ocr |
clean_text | ocr_text | 噪声用户查询对干净索引 |
ocr2clean |
ocr_text | clean_text | 干净查询对噪声OCR索引 |
评估指标
- NDCG@10 — 归一化折损累计增益
- MRR@10 — 平均倒数排名
- Recall@100
字符错误率(CER)摘要
dpi120_font10(低质量)
| 语言 | 语料CER | 查询CER | 语料文档数 | 查询数 |
|---|---|---|---|---|
| de | 15.4% | 8.9% | 2,000 | 200 |
| en | 11.0% | 9.1% | 2,000 | 800 |
| es | 9.4% | 6.7% | 2,000 | 200 |
| fr | 11.6% | 10.1% | 2,000 | 200 |
| ru | 12.3% | 7.3% | 2,000 | 200 |
dpi130_font10(中等质量)
| 语言 | 语料CER | 查询CER | 语料文档数 | 查询数 |
|---|---|---|---|---|
| en | 6.7% | 4.6% | 2,000 | 800 |
| ru | 8.5% | 4.6% | 2,000 | 200 |
dpi300_font12(高质量)
| 语言 | 语料CER | 查询CER | 语料文档数 | 查询数 |
|---|---|---|---|---|
| ru | 4.9% | 1.9% | 2,000 | 200 |
CER摘要也可作为HF配置使用:cer_summary_dpi120_font10、cer_summary_dpi130_font10、cer_summary_dpi300_font12。
相关数据集
- OCR-MIRACL — 相同的OCR噪声管道应用于
miracl/miracl。
引用
如果使用此数据集,请引用MLDR:
bibtex @misc{chen2024bge, title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu}, year={2024}, eprint={2402.03216}, archivePrefix={arXiv}, primaryClass={cs.CL} }




