知识边界感知奖励函数和训练数据集

Name: 知识边界感知奖励函数和训练数据集
Creator: 中国科学院自动化研究所、中国科学院大学、北京市人工智能研究院
Published: 2025-05-12 22:21:57
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://github.com/hzy312/knowledge-r1

下载链接

链接失效反馈

官方服务：

资源简介：

论文中提到的数据集是专门为训练IKEA代理而构建的知识边界感知奖励函数和训练数据集。这些数据集旨在帮助模型学习如何准确地判断何时使用内部知识，何时需要检索外部知识。数据集包含了一系列问题，这些问题需要模型使用内部知识或外部知识来回答。通过这种方式，模型可以学会在推理过程中有效地结合内部和外部知识。这些数据集对于训练能够高效地利用内部和外部知识的自适应搜索代理至关重要。

The datasets mentioned in the paper are knowledge boundary-aware reward functions and training datasets specifically constructed for training IKEA agents. These datasets are designed to assist models in accurately discerning when to employ internal knowledge and when retrieval of external knowledge is necessary. The datasets comprise a series of questions that require models to answer using either internal or external knowledge. Through this setup, models can learn to effectively integrate internal and external knowledge during the inference phase. These datasets are critically important for training adaptive search agents that can efficiently leverage both internal and external knowledge.

提供机构：

中国科学院自动化研究所、中国科学院大学、北京市人工智能研究院

创建时间：

2025-05-12

原始信息汇总

数据集概述：knowledge-r1

基本信息

数据集名称: knowledge-r1
代码分支: knowledge-r1 branch
相关论文: Arxiv链接

研究背景

研究主题: 基于强化内外知识协同推理的高效自适应搜索代理（IKEA）

备注

该数据集的README文件尚未完全更新，作者表示将尽快更新IKEA的相关信息。

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的强化学习框架构建，旨在优化大型语言模型（LLM）在知识密集型任务中的检索行为。首先，采用上下文学习结合三示例链式思维（Chain-of-Thought）方法探测模型内部知识边界，将问题划分为‘易答’（Qeasy）和‘难答’（Qhard）两类。随后，构建平衡的训练数据集（Qeasy与Qhard比例为1:1），并设计知识边界感知奖励函数，通过多轮强化学习（采用GRPO算法）训练模型优先利用内部参数化知识，仅在知识不足时触发外部检索。数据收集涵盖单跳与多跳推理任务，包括NQ、HotpotQA等基准数据集，确保覆盖多样化的知识需求场景。

特点

该数据集的核心特点在于其‘知识边界感知’机制：1）动态检索决策：通过强化学习激励模型自主判断知识边界，减少冗余检索（较基线方法检索频率降低34.76%）；2）双知识协同：平衡内部参数化知识与外部检索知识的利用，在NQ和HotpotQA测试集上准确率提升10%以上；3）泛化性强：在分布外数据集（如PopQA、2Wiki）上表现稳健，验证了知识行为的可迁移性；4）高效性：通过结构化动作标签（如<THINK>/<SEARCH>）实现检索与生成的流程化交互，显著降低推理延迟。

使用方法

使用该数据集需遵循三阶段流程：1）环境配置：加载预训练语言模型（如Qwen2.5-3B）与检索系统（如e5-base检索器+Wikipedia语料）；2）训练阶段：采用GRPO算法优化策略，设置知识边界奖励参数（rkb+=0.6, rkb−=0.05），每任务16轮探索，批量大小256；3）推理阶段：输入问题后，模型通过<THINK>-<SEARCH>-<ANSWER>交互链自主决策检索时机，最终输出精确答案。代码与训练细节已在GitHub开源，支持8xA100 GPU的分布式训练。

背景与挑战

背景概述

知识边界感知奖励函数和训练数据集（Knowledge-boundary Aware Reward Function and Training Dataset）由中国科学院自动化研究所和北京人工智能研究院的研究团队于2025年提出，旨在解决大型语言模型（LLMs）在检索增强生成（RAG）中的内部知识利用不足问题。该数据集通过强化学习（RL）框架，激励模型在知识边界内优先使用内部参数化知识，仅在知识不足时进行外部检索，从而减少冗余检索、潜在知识冲突及推理延迟。这一创新显著提升了模型在知识密集型推理任务中的效率与准确性，并对自适应搜索代理的研究方向产生了深远影响。

当前挑战

该数据集面临的挑战主要包括两方面：1) 领域问题挑战：现有检索增强方法难以平衡内部知识与外部检索的协同使用，导致模型要么过度依赖外部检索（引发冗余和冲突），要么忽视外部知识补充（无法解决知识盲区）；2) 构建过程挑战：需精准设计知识边界感知奖励函数以区分‘已知/未知’问题，同时构建均衡的训练数据集（包含等量内部知识可答与需检索的问题），避免模型偏向单一知识源。此外，强化学习训练的高计算成本及奖励参数调优的复杂性也增加了构建难度。

常用场景

经典使用场景

在大型语言模型（LLM）与检索增强生成（RAG）结合的领域，知识边界感知奖励函数和训练数据集被设计用于优化模型的检索行为。该数据集通过强化学习（RL）训练模型，使其能够准确识别自身知识的边界，优先利用内部参数化知识，仅在知识不足时触发外部检索。这一机制显著减少了冗余检索和潜在的知识冲突，提升了推理效率。经典应用场景包括知识密集型问答任务，如多跳推理和开放域问答，其中模型需动态权衡内部知识调用与外部检索的时机。

衍生相关工作

该数据集催生了多个延伸研究方向：1）基于GRPO算法的群体相对策略优化，避免了传统PPO需单独训练价值模型的缺陷；2）深度检索生成框架（DeepRAG）将检索时机决策建模为马尔可夫过程；3）自检方法（如FLARE）通过低置信度token预测触发检索。相关成果发表在ACL、EMNLP等会议上，形成了检索-生成协同优化的技术谱系，其中知识边界探针（Knowledge Probe）和混合训练数据构建方法已成为后续研究的基准工具。

数据集最近研究