ARPO-RL-Reasoning-10K

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/dongguanting/ARPO-RL-Reasoning-10K

下载链接

链接失效反馈

官方服务：

资源简介：

ARPO数据集是支持训练和评估多轮LLM基础代理的框架，旨在提高LLM在长距离推理和多轮工具交互方面的能力。

创建时间：

2025-07-24

原始信息汇总

ARPO-RL-Reasoning-10K 数据集概述

基本信息

许可证: MIT
任务类别: 文本生成
标签: 强化学习、大语言模型、智能体、工具使用、推理、知识、深度搜索

数据集背景

该数据集隶属于Agentic Reinforced Policy Optimization (ARPO)框架，用于训练和评估基于大语言模型的多轮智能体。旨在提升大语言模型在长程推理和多轮工具交互中的能力。

数据集结构

数据集以parquet文件形式发布，包含以下部分：

推理与知识数据集:
- train_10k.parquet: 包含10,000个数学和知识推理任务的样本。
- test.parquet: 包含来自8个数据集的300个测试样本（AIME24、AIME25、MATH500、GSM8k、HotpotQA、2Wiki、Misque、Bamboogle）。
深度搜索数据集:
- hard_search.parquet: 包含1,000个样本（800来自simpledeepsearch，200来自webdancer）。
- gaia_test.parquet/hle_test.parquet: 包含来自GAIA和Humanity Last Exam (HLE)基准的测试样本。

使用方式

可通过以下命令下载数据集： bash git lfs install git clone https://huggingface.co/datasets/dongguanting/ARPO-RL-Reasoning-10K

引用

如需引用，请使用以下BibTeX条目： bibtex @misc{dong2025arpo, title={Agentic Reinforced Policy Optimization}, author={Guanting Dong and Hangyu Mao and Kai Ma and Licheng Bao and Yifei Chen and Zhongyuan Wang and Zhongxia Chen and Jiazhen Du and Huiyang Wang and Fuzheng Zhang and Guorui Zhou and Yutao Zhu and Ji-Rong Wen and Zhicheng Dou}, year={2025}, eprint={2507.19849}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2507.19849}, }

搜集汇总

数据集介绍

构建方式

在强化学习与语言模型融合的前沿领域，ARPO-RL-Reasoning-10K数据集的构建采用了多源任务集成策略。该数据集从数学推理、知识问答等八个权威基准中精选样本，包括AIME24、MATH500及GSM8K等，通过结构化转换与标注流程形成10,000条训练样本。其构建过程注重任务多样性与难度分层，确保覆盖不同复杂度的推理场景，为智能体提供丰富的学习环境。

特点

该数据集的核心特点在于其多维度挑战性设计，深度融合了数学计算、事实检索与逻辑推理任务。样本涵盖单步推理与多轮工具交互场景，并引入外部工具使用痕迹数据，有效模拟真实决策环境的高不确定性。熵分布变化特征被显式保留，为强化学习算法提供探索性训练信号，支持智能体在动态环境中实现策略优化。

使用方法

研究者可通过Hugging Face平台直接下载该数据集的parquet格式文件，集成至训练流程。建议先行监督微调奠定基础能力，继而接入ARPO框架进行策略优化训练。数据集严格划分训练与测试集，支持性能评估 across 多个权威基准，用户可参照GitHub仓库提供的代码规范实现端到端智能体训练与验证。

背景与挑战

背景概述

人工智能领域近年来在大语言模型（LLM）与强化学习的交叉研究中取得了显著进展。ARPO-RL-Reasoning-10K数据集由董冠廷等研究人员于2025年提出，隶属于Agentic Reinforced Policy Optimization（ARPO）框架，旨在解决多轮工具交互中LLM的长程推理能力与工具使用熟练度之间的平衡问题。该数据集覆盖计算推理、知识推理及深度搜索三大领域，包含10,000个高质量样本，为LLM智能体的训练与评估提供了重要基础，推动了实时动态环境下智能体对齐研究的发展。

当前挑战

该数据集核心挑战在于解决多轮工具交互中LLM行为的高不确定性，具体表现为外部工具调用后生成标记的熵分布显著增加。构建过程中需克服长程推理任务中轨迹采样与步骤级采样的动态平衡问题，以及优势差异在逐步工具交互中的内部化难题。此外，数据集成涉及13个高难度基准测试，需确保多样性与复杂性并存，同时维持half tool-use budget的高效性，这对数据质量控制与算法适配提出了极高要求。

常用场景

经典使用场景

在强化学习与大型语言模型融合的研究领域中，ARPO-RL-Reasoning-10K数据集为多轮工具交互式推理任务提供了标准化评估基准。该数据集广泛应用于训练具备外部工具调用能力的语言代理，尤其适用于数学推理、知识问答和复杂决策场景，研究者通过其构建的交互轨迹可系统评估模型在动态环境中的多步推理性能。

解决学术问题

该数据集有效解决了传统强化学习算法在长周期推理任务中探索效率低下的问题，通过提供高质量的多轮交互样本，支持模型内化工具使用优势差异。其熵适应机制的设计为不确定性条件下的探索策略提供了理论依据，显著提升了语言代理在实时动态环境中的对齐能力与泛化性能。

衍生相关工作

基于该数据集衍生的经典研究包括工具增强型语言模型的策略优化框架、熵自适应采样机制的理论分析，以及多模态代理在GAIA和HLE等基准测试中的性能突破。这些工作进一步推动了强化学习与语言模型融合领域在可解释性、采样效率和泛化能力方面的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集