reasonir-data

Hugging Face2025-05-03 更新2025-05-04 收录

下载链接：

https://huggingface.co/datasets/reasonir/reasonir-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于训练ReasonIR-8B模型的合成示例，分为可变长度(VL)数据和硬查询(HQ)数据两种配置。每种配置都包含查询、正文档和负文档信息。VL数据集提供了完整的（查询，正文档，负文档）数据，而HQ数据集由于无法提供原始正文档，因此提供了正文档的标识符和负文档。使用HQ数据集时，需要结合原始数据存储和BRIGHT数据集来获取完整的正文档内容。

创建时间：

2025-04-30

原始信息汇总

数据集概述

基本信息

语言: 英文 (en)
许可证: CC-BY-NC-4.0
任务类别: 文本检索 (text-retrieval)

数据集配置

配置1: HQ (Hard-Query)

特征:
- query: 字符串序列
- pos: 字符串序列的序列
- neg: 字符串序列的序列
数据分割:
- train:
  - 样本数: 100,521
  - 字节数: 247,508,395
下载大小: 119,301,419
数据集大小: 247,508,395

配置2: VL (Varied-Length)

特征:
- query: 字符串序列
- pos: 字符串序列的序列
- neg: 字符串序列的序列
数据分割:
- train:
  - 样本数: 244,970
  - 字节数: 394,291,762
下载大小: 221,875,294
数据集大小: 394,291,762

数据加载说明

VL 数据集

python from datasets import load_dataset vl_dataset = load_dataset("reasonir/reasonir-data", "vl")

HQ 数据集

由于无法重新托管原始正文档，需结合 BRIGHT 数据集加载: python from datasets import load_dataset

def get_doc_and_ids(doc_pairs): doc_ids = [] documents = [] for dp in doc_pairs: doc_ids.append(str(dp[id])) documents.append(dp[content]) return documents, doc_ids

def process_pos_id2doc(entry, id2doc): pos_docs = entry["pos"] res = [] for pos in pos_docs: instruction, doc_id = pos[0], pos[1] doc = id2doc[doc_id] res.append([instruction, doc]) entry["pos"] = res return entry

hq_dataset = load_dataset("reasonir/reasonir-data", "hq") bright_docs = load_dataset("xlangai/BRIGHT", "documents") all_docs = []
all_ids = [] for task in bright_docs.keys(): docs, ids = get_doc_and_ids(bright_docs[task]) all_docs.extend(docs) all_ids.extend(ids)

id2doc = {} for i in range(len(all_docs)): id2doc[all_ids[i]] = all_docs[i]

hq_dataset = hq_dataset.map(lambda x: process_pos_id2doc(x, id2doc))

搜集汇总

数据集介绍

构建方式

在信息检索领域，reasonir-data数据集的构建体现了合成数据生成的先进理念。该数据集通过精心设计的流程，构建了包含查询语句、相关文档和不相关文档的三元组结构。其中变长数据集(VL)直接提供完整的三元组数据，而硬查询数据集(HQ)则采用创新的间接关联方式——仅提供相关文档的标识符，需通过脚本与BRIGHT语料库进行关联匹配，这种设计既解决了数据版权问题，又确保了研究价值。

特点

该数据集展现出鲜明的双模态特征，包含变长(VL)和硬查询(HQ)两种配置。VL配置包含24万组完整的三元组数据，HQ配置则提供10万组经过筛选的高难度查询案例。特别值得注意的是，HQ配置中的正例文档采用了创新的标识符映射机制，通过与外部知识库BRIGHT的智能关联，既保障了数据完整性又遵循了知识产权规范。这种双轨设计为信息检索模型的训练提供了不同难度的学习素材。

使用方法

使用该数据集需根据具体配置采用差异化加载策略。对于VL配置，可直接通过Hugging Face的load_dataset函数加载完整的三元组数据。HQ配置则需要执行多步处理：首先加载基础查询数据，然后从BRIGHT语料库获取文档内容，最后通过提供的处理脚本建立文档标识符与内容的映射关系。数据集作者贴心地提供了完整的Python处理范例，包括文档获取、标识符映射等关键步骤的标准化实现，极大简化了研究人员的准备工作。

背景与挑战

背景概述

reasonir-data数据集由Facebook Research团队于2024年发布，旨在支持大规模信息检索模型的训练与研究。该数据集作为ReasonIR-8B模型的训练基础，聚焦于解决复杂查询场景下的文档检索难题。通过合成数据生成技术，研究人员构建了包含多样化查询-文档对的语料库，其中既包含标准长度的检索样本（VL），也涵盖具有挑战性的困难查询样本（HQ）。该数据集的创新之处在于将语义推理能力引入传统检索任务，为信息检索领域从关键词匹配向认知智能转变提供了重要资源。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何提升模型对隐含语义关联的捕捉能力成为关键，特别是对于包含复杂推理链的困难查询（HQ），传统检索方法难以建立查询与文档间的深层逻辑联系。在构建过程中，技术挑战主要来自数据合成质量的把控，需要平衡生成样本的多样性与真实性；同时由于版权限制，HQ部分的正文档需通过BRIGHT数据集动态重构，这种分布式存储方案虽解决法律合规问题，但增加了数据处理的复杂度。此外，跨数据集的知识融合也对模型训练提出了新的架构设计要求。

常用场景

经典使用场景

在信息检索领域，reasonir-data数据集为训练和评估大规模检索模型提供了高质量的合成数据。该数据集通过精心构造的查询-正例文档-负例文档三元组，能够有效模拟真实检索场景中的复杂语义匹配问题。特别是在跨语言检索和多模态检索任务中，其变长数据配置（VL）和硬查询数据配置（HQ）为模型提供了从基础到进阶的渐进式训练支持。

解决学术问题

该数据集显著解决了信息检索领域两个核心难题：一是通过合成数据缓解真实标注数据稀缺的问题，二是针对硬查询场景设计了专门的训练机制。其创新的数据构造方法为稠密检索模型的泛化能力研究提供了新范式，特别是在处理长尾查询和低资源语言场景时，有效突破了传统检索模型性能瓶颈。论文中报道的ReasonIR-8B模型在该数据集上取得的突破性进展，验证了合成数据在复杂检索任务中的学术价值。

衍生相关工作

围绕该数据集已衍生出多个具有影响力的研究工作，包括稠密检索模型架构优化、跨模态检索对齐方法以及合成数据质量评估框架等。特别值得注意的是，基于该数据集训练的ReasonIR-8B模型开创了十亿参数级检索系统的新范式，相关技术已被AdaptRetriever和ColBERT-v2等后续工作引用和改进，推动了整个信息检索领域的技术演进。

以上内容由遇见数据集搜集并总结生成