REASONIR-8B

Name: REASONIR-8B
Creator: Facebook AI Research (FAIR) at Meta, University of Washington, National University of Singapore, Singapore-MIT Alliance for Research and Technology, Allen Institute for Artificial Intelligence, Stanford University, Massachusetts Institute of Technology, University of California, Berkeley
Published: 2025-04-29 17:49:28
License: 暂无描述

arXiv2025-04-29 更新2025-05-01 收录

下载链接：

https://github.com/facebookresearch/ReasonIR, https://huggingface.co/reasonir/ReasonIR-8B

下载链接

链接失效反馈

官方服务：

资源简介：

REASONIR-8B 是一个专门为推理任务训练的检索器，它是第一个针对推理密集型检索开发的检索器。为了训练 REASONIR-8B，研究人员开发了一个合成数据生成流程，该流程为每个文档创建了一个具有挑战性和相关性的查询，以及一个看似相关但实际上无用的硬负样本。通过在合成数据和现有公共数据上训练，REASONIR-8B 在广泛使用的推理密集型信息检索基准 BRIGHT 上取得了新的最先进水平。此外，REASONIR-8B 在 RAG 任务中表现出色，显著提高了 MMLU 和 GPQA 的性能。

REASONIR-8B is a retriever specifically trained for reasoning tasks, and it is the first retriever developed for reasoning-intensive retrieval. To train REASONIR-8B, researchers developed a synthetic data generation pipeline that creates challenging and relevant queries for each document, as well as hard negative samples that appear relevant but are actually useless. Trained on both synthetic data and existing public datasets, REASONIR-8B achieves a new state-of-the-art performance on the widely used reasoning-intensive information retrieval benchmark BRIGHT. Furthermore, REASONIR-8B excels in RAG tasks, significantly improving the performance on MMLU and GPQA.

提供机构：

Facebook AI Research (FAIR) at Meta, University of Washington, National University of Singapore, Singapore-MIT Alliance for Research and Technology, Allen Institute for Artificial Intelligence, Stanford University, Massachusetts Institute of Technology, University of California, Berkeley

创建时间：

2025-04-29

搜集汇总

数据集介绍

构建方式

REASONIR-8B数据集的构建采用了创新的合成数据生成方法REASONIR-SYNTHESIZER，通过结合公开数据集与合成数据，专门针对推理密集型任务进行训练。具体流程包括：从高质量文档中生成具有挑战性的查询及其相关文档，同时创建表面相关但实际无帮助的困难负样本。此外，还生成了长度多样的查询和文档对，以扩展模型对长文本的理解能力。训练过程中混合使用了公开数据、变长数据(VL)和困难查询数据(HQ)，通过对比学习目标优化双编码器检索模型。

特点

该数据集具有三大核心特征：1) 专为复杂推理任务设计，查询平均长度达194词，远超传统检索数据集；2) 包含人工合成的困难负样本，有效提升模型区分相关与非相关文档的能力；3) 覆盖广泛的查询长度分布(64-2048词)和12个学科领域，确保模型在多样化场景下的泛化性能。在BRIGHT基准测试中，REASONIR-8B创下29.9 nDCG@10的新纪录，较基线提升显著。

使用方法

REASONIR-8B支持多种应用方式：1) 直接作为检索器使用，处理原始查询；2) 结合查询重写技术，通过增加查询细节提升检索效果；3) 与LLM重排序器集成形成检索-重排序流程。实验表明，当与Qwen2.5-32B重排序器结合时，性能可进一步提升至36.9 nDCG@10。该模型特别适合需要复杂推理的问答系统，在MMLU和GPQA基准上分别带来6.4%和22.6%的性能提升。

背景与挑战

背景概述

REASONIR-8B是由Meta、华盛顿大学、新加坡国立大学、MIT等机构的研究团队于2025年4月推出的首个专为推理任务训练的检索模型。该数据集针对传统检索模型在复杂推理任务中表现不佳的问题，通过创新的合成数据生成流程构建，包含挑战性查询和困难负样本。其核心创新在于REASONIR-SYNTHESIZER数据生成方法，能够自动创建需要多步推理的查询及相关文档。该模型在BRIGHT推理密集型检索基准上创造了29.9 nDCG@10的新记录，并在RAG任务中显著提升了MMLU和GPQA基准的表现，推动了检索增强生成技术在复杂认知任务中的应用。

当前挑战

REASONIR-8B主要解决两大挑战：首先是推理密集型检索的固有困难，传统检索模型难以处理需要背景知识、方法论演示或模式识别的复杂查询；其次是数据构建的挑战，包括如何生成既具挑战性又保持自洽的推理查询，以及如何创建表面相关但实际无用的高质量困难负样本。在技术实现层面，模型需要平衡不同长度查询的嵌入质量，并有效处理测试时通过查询改写带来的信息密度变化。此外，将合成数据与现有公共数据有效融合以保持模型通用性，也是关键挑战之一。

常用场景

经典使用场景

REASONIR-8B数据集在推理密集型信息检索（IR）任务中表现出色，特别是在处理需要复杂推理的查询时。该数据集通过合成具有挑战性和多样性的查询及其相关文档，显著提升了检索模型在BRIGHT等推理密集型基准上的性能。例如，在BRIGHT基准测试中，REASONIR-8B在不使用重排器的情况下达到了29.9的nDCG@10分数，结合重排器后更是提升至36.9，展现了其在复杂推理任务中的强大能力。

衍生相关工作

REASONIR-8B的推出催生了一系列相关研究工作，特别是在推理密集型检索和检索增强生成领域。例如，基于REASONIR-8B的训练方法，研究人员开发了更高效的检索模型和重排技术，如QwenRerank，这些技术在保持高性能的同时显著降低了计算成本。此外，REASONIR-8B的开源代码和数据也为后续研究提供了重要基础，推动了推理密集型检索技术的进一步发展。

数据集最近研究