DeR2

Name: DeR2
Creator: 字节跳动; M-A-P
Published: 2026-01-30 00:26:19
License: 暂无描述

arXiv2026-01-30 更新2026-02-02 收录

下载链接：

https://retrieval-infused-reasoning-sandbox.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

DeR2是由字节跳动和M-A-P联合开发的科学推理基准测试数据集，旨在解耦检索与推理能力评估。该数据集包含从2023-2025年理论论文中提取的冻结文档库（平均每实例6.5篇），包含专家标注的概念集和验证过的思维链依据。通过四重评估机制（纯指令、概念集、相关文档集、全文档集）实现细粒度错误归因，重点解决前沿科学问题中多步推导、噪声过滤和证据合成等核心难点，为AI模型在科研场景下的证据驱动推理能力提供标准化评估框架。

提供机构：

字节跳动; M-A-P

创建时间：

2026-01-30

搜集汇总

数据集介绍

构建方式

在评估大语言模型深度研究能力的背景下，DeR2数据集的构建旨在解耦检索与推理过程，以提供精确的诊断能力。其构建流程始于从2023至2025年的前沿理论论文中筛选源文献，确保问题的新颖性。随后，由特定领域的博士生标注员提取核心问题、答案、概念集合及思维链，形成基础四元组。为确保问题无法通过参数记忆解决且能在给定概念下求解，数据集采用了严格的双阶段难度校准：模型在无概念条件下必须失败，而在提供概念后则需具备可解性。最后，基于源文献的参考文献构建文档库，包含相关文档及精心挑选的主题相关干扰文档，并经过多轮评审以确保科学有效性与格式合规性。

特点

DeR2数据集的核心特点在于其精心设计的解耦评估框架。它通过四种受控输入模式——仅指令、仅概念、仅相关文档和完整文档集，清晰地将证据获取能力与概念推理能力分离开来。这种设计使得性能差距能够被归因于特定的失败源头，例如检索损失或噪声诱导的推理模式切换失败。数据集提供了冻结的文档库，其中嵌入了专家标注的概念集合和经过验证的思维链，确保了评估的稳定性和可复现性。此外，其问题均源自最新的理论文献，有效避免了参数泄漏和网络波动带来的信号污染，为模型在证据驱动下的深度合成与去噪能力提供了可靠的测试平台。

使用方法

使用DeR2数据集时，研究者通常在四种受控配置下评估模型：仅指令模式检验参数知识；仅概念模式评估概念组合与调度能力；仅相关文档模式测试在清晰证据下的提取与推理；完整文档集模式则挑战模型在相关文档与干扰文档混合环境下的去噪与推理。评估过程要求模型基于给定输入生成最终答案，不依赖外部网络检索，所有证据必须源自提供的文档集或概念列表。通过比较不同模式下的性能差距，可以量化模型的检索损失与推理损失，并借助数据集中提供的概念标注与思维链进行细粒度的错误归因，从而深入理解模型在检索增强推理中的具体瓶颈与失败模式。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务上的显著进步，如何评估其在真实科研场景中整合外部证据进行深度推理的能力，成为人工智能领域的关键挑战。现有检索增强生成基准通常将检索与推理能力耦合评估，导致性能瓶颈难以溯源。为此，字节跳动Seed团队与M-A-P社区于2026年联合发布了DeR2基准，旨在通过解耦检索与推理过程，构建一个可控的深度研究沙盒。该基准聚焦于前沿科学文献中的多步合成、噪声过滤与证据驱动结论生成等核心难题，通过提供包含相关文档与干扰文档的冻结文档库、专家标注的概念集及验证过的思维链，为模型在真实科研环境中的推理能力提供了精细化评估框架。

当前挑战

DeR2基准致力于解决检索增强推理领域的两大核心挑战：在领域问题层面，传统评估方法难以区分模型错误源于检索失败还是推理缺陷，且易受参数记忆与网络波动干扰；在构建过程中，需确保问题具有足够的前沿性以避免参数泄露，同时维持文档库的稳定性与可复现性。具体挑战包括：设计四阶段评估机制以分离检索损失与推理损失，实施两阶段验证协议以保证问题在无证据时不可解而在提供概念时可解，以及从2023至2025年的理论论文中构建包含噪声的冻结文档库，以模拟真实文献检索中的干扰环境。

常用场景

经典使用场景

在检索增强生成（RAG）系统的评估领域，DeR2数据集被广泛应用于解耦检索与推理能力的基准测试。该数据集通过提供四种受控输入条件——仅指令、仅概念、仅相关文档和完整文档集，使得研究者能够精确量化模型在证据选择、概念提取和多步推理等环节中的性能损失。这种设计特别适用于诊断大型语言模型在深度科学研究任务中的失败模式，例如模式切换脆弱性和结构性概念误用，从而为模型架构的优化提供细粒度的指导。

实际应用

在实际应用层面，DeR2数据集为开发面向科学研究的智能代理系统提供了关键测试平台。例如，在构建能够自主进行文献综述或前沿科学问题探索的AI助手时，该数据集可用于评估代理在嘈杂文档环境中筛选关键证据、整合多源概念并执行复杂推理的能力。此外，它还被用于指导企业级RAG系统的优化，帮助工程师识别模型在检索增强场景下的具体瓶颈，从而针对性地改进证据去噪算法或多概念协调机制。

衍生相关工作

DeR2数据集的发布催生了一系列关注检索与推理解耦的经典研究工作。例如，基于其评估框架，后续研究提出了专门针对模式切换脆弱性的训练方法，通过强化模型在参数化推理与证据驱动推理之间的平稳过渡能力来提升性能。同时，该数据集也启发了对结构性概念误用现象的深入分析，推动了如概念程序化执行模块等新型架构组件的开发。此外，其冻结文档库的设计理念被多个后续基准采纳，促进了科学领域长上下文评估标准的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集