real end-to-end agentic SFT dataset, high-diversity, model-aware RL dataset

Name: real end-to-end agentic SFT dataset, high-diversity, model-aware RL dataset
Creator: 新加坡国立大学, 香槟伊利诺伊大学, 普林斯顿大学
Published: 2025-10-14 01:57:15
License: 暂无描述

arXiv2025-10-14 更新2025-11-05 收录

下载链接：

https://github.com/Gen-Verse/Open-AgentRL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由新加坡国立大学、香槟伊利诺伊大学和普林斯顿大学的研究人员共同创建的，旨在提高大型语言模型（LLMs）的推理能力。数据集包含真实端到端的代理推理轨迹，以及高度多样化和模型感知的强化学习数据集。这些数据集可以帮助LLMs更好地理解如何调用外部工具，从而在推理过程中更有效地整合外部工具。数据集的创建过程涉及对真实推理行为的仔细记录和编辑，以确保数据的准确性和可靠性。该数据集的应用领域包括数学、科学发现和代码生成等领域，旨在解决LLMs在推理过程中对外部工具整合的问题。

This dataset was co-created by researchers from the National University of Singapore, the University of Illinois Urbana-Champaign, and Princeton University, aiming to enhance the reasoning capabilities of Large Language Models (LLMs). It contains real end-to-end agent reasoning trajectories, as well as highly diverse and model-aware reinforcement learning datasets. These resources help LLMs better understand how to invoke external tools, thereby enabling more effective integration of external tools during the reasoning process. The dataset creation process involves meticulous documentation and editing of real reasoning behaviors to ensure the accuracy and reliability of the data. Application areas of this dataset include mathematics, scientific discovery, code generation, and other fields, and it is designed to address the challenges of external tool integration in LLMs' reasoning workflows.

提供机构：

新加坡国立大学, 香槟伊利诺伊大学, 普林斯顿大学

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

在智能体推理研究领域，数据集构建方式直接影响模型学习效果。该数据集通过真实端到端工具使用轨迹的收集方式构建，采用高质量教师模型在多样化任务上进行多轮交互生成，并利用轨迹质量评分机制筛选最优样本。这种构建方法完整保留了智能体决策过程中的关键行为模式，包括工具调用前的分析判断、执行中的检查机制以及错误后的策略调整，为监督微调提供了自然连贯的学习信号。

使用方法

在应用层面，该数据集支持端到端的智能体强化学习流程。监督微调阶段采用真实轨迹初始化模型，建立工具使用先验；强化学习阶段则结合GRPO算法框架，通过令牌级损失聚合和动态裁剪策略优化训练效率。数据集支持探索友好的训练技术，包括过长度奖励塑形和熵值调节机制，使模型在保持探索能力的同时提升工具调用精度。最终模型在数学推理、科学问答和代码生成等复杂基准测试中展现出卓越的智能体推理能力。

背景与挑战

背景概述

在人工智能领域，强化学习与智能体推理的融合成为提升大语言模型自主决策能力的关键路径。由新加坡国立大学、普林斯顿大学等机构研究人员于2025年提出的real end-to-end agentic SFT dataset与high-diversity, model-aware RL dataset，旨在解决传统合成轨迹数据在工具调用连贯性上的缺陷。该数据集通过真实端到端轨迹捕捉完整的推理行为链条，包括工具调用前的策略分析、执行中的错误恢复等关键环节，为数学推理、科学发现等复杂任务提供了高质量训练基础，显著提升了4B参数模型在AIME、GPQA-Diamond等基准测试中的表现。

当前挑战

该数据集面临的挑战集中于领域问题与构建过程两个维度。在领域层面，需解决智能体在工具调用与内部推理间的动态平衡问题，避免过度依赖外部工具或陷入无效长链推理。构建过程中，真实端到端轨迹的采集面临高昂计算成本，而合成数据缺乏自然连贯性；同时，模型感知数据需动态适配不同能力基座模型，避免能力-难度失配导致的训练失效。此外，维持策略熵以促进探索、设计兼顾探索与利用的奖励函数，均为数据集构建的核心难点。

常用场景

经典使用场景

在智能体推理研究领域，该数据集被广泛应用于强化学习训练阶段，通过提供高多样性的真实端到端工具使用轨迹，显著提升了语言模型在数学推理、科学问答和代码生成等复杂任务中的表现。研究者在训练过程中利用该数据集的多轮交互特性，使模型能够学习何时调用工具、如何整合外部反馈以及如何制定有效的推理策略，从而在AIME、GPQA-Diamond等权威基准测试中取得突破性进展。

解决学术问题

该数据集有效解决了传统合成数据中存在的推理轨迹断裂问题，通过真实端到端轨迹完整保留了工具调用前后的决策逻辑，显著提升了模型对工具使用时机和策略的理解能力。其高多样性特性缓解了强化学习中的探索不足困境，而模型感知设计则突破了弱模型在复杂任务中的性能瓶颈，为构建稳定高效的智能体推理系统提供了关键数据支撑。

实际应用

在实际部署场景中，该数据集支撑的智能体系统已成功应用于教育辅助、科研探索和软件开发等多个领域。在数学竞赛解题场景中，系统能通过代码解释器进行精确计算验证；在科学知识问答中，可结合搜索引擎获取最新研究资料；在编程任务中，能实时测试代码正确性并迭代优化，显著提升了复杂问题解决的准确性和效率。

数据集最近研究