Psychias/ocr-miracl

Name: Psychias/ocr-miracl
Creator: Psychias
Published: 2026-04-27 19:21:43
License: 暂无描述

Hugging Face2026-04-27 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Psychias/ocr-miracl

下载链接

链接失效反馈

官方服务：

资源简介：

OCR-MIRACL数据集是基于MIRACL多语言检索基准的OCR降级版本，旨在评估嵌入模型在噪声、OCR类文本上的性能。数据集从`miracl/miracl`（开发集）中每种语言抽取了2000份文档子样本，每段文本和查询都以特定的DPI/字体大小设置渲染为PDF，并通过OCR重新提取，引入了真实的字符级噪声。数据集提供了原始干净文本和OCR噪声文本，以及原始MIRACL的相关性判断（qrels）。支持的语言包括德语（de）、英语（en）、西班牙语（es）、法语（fr）和俄语（ru）。数据集提供了三种不同的OCR质量配置（低质量、中等质量、高质量），每种配置下又分为文档段落、搜索查询和相关性判断三个子配置。数据集的使用和评估方法在README中有详细说明，包括加载数据、编码、检索和计算评估指标等步骤。

OCR-MIRACL is an OCR-degraded version of the MIRACL multilingual retrieval benchmark (`miracl/miracl`), designed to evaluate embedding models on noisy, OCR-like text. A 2,000-document subsample per language was drawn from `miracl/miracl` (dev split). Each passage and query was rendered as a PDF at a specific DPI / font-size setting and re-extracted via OCR to introduce realistic character-level noise. The dataset provides both the original clean text and the OCR-noised text, together with the original MIRACL relevance judgments (qrels). Supported languages include German (de), English (en), Spanish (es), French (fr), and Russian (ru). The dataset offers three different OCR quality configurations (low, medium, high), each further divided into sub-configurations for document passages, search queries, and relevance judgments. The README provides detailed instructions on how to use the dataset, including loading data, encoding, retrieval, and computing evaluation metrics.

提供机构：

Psychias

5,000+

优质数据集

54 个

任务类型

进入经典数据集