ARPO-RL-DeepSearch-1K
收藏ARPO-RL-DeepSearch-1K 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 文本生成
- 标签:
- 强化学习
- 大语言模型 (LLM)
- 代理
- 工具使用
- 推理
- 多轮对话
数据集描述
ARPO-RL-DeepSearch-1K 数据集是 Agentic Reinforced Policy Optimization (ARPO) 项目的一部分,专为测试具有深度搜索能力的 LLM 代理而设计。该数据集包含 1,000 个样本,其中 800 个来自 SimpleDeepSearch,200 个来自 WebDancer。
数据集内容
- 主要文件:
hard_search.parquet- 样本数量: 1,000
- 来源:
- SimpleDeepSearch: 800 个样本
- WebDancer: 200 个样本
相关数据集
- 推理与知识数据集:
dongguanting/ARPO-RL-Reasoning-10K- 训练集:
train_10k.parquet(10,000 个样本) - 测试集:
test.parquet(300 个样本,来自 8 个不同数据集)
- 训练集:
- 监督微调数据集:
dongguanting/ARPO-SFT-54K- 样本数量: 54,000
使用示例
bash
安装 Git LFS
git lfs install
克隆深度搜索 RL 数据集
git clone https://huggingface.co/datasets/dongguanting/ARPO-RL-DeepSearch-1K
引用
如需引用,请使用以下 BibTeX 条目: bibtex @misc{dong2025arpo, title={Agentic Reinforced Policy Optimization}, author={Guanting Dong and Hangyu Mao and Kai Ma and Licheng Bao and Yifei Chen and Zhongyuan Wang and Zhongxia Chen and Jiazhen Du and Huiyang Wang and Fuzheng Zhang and Guorui Zhou and Yutao Zhu and Ji-Rong Wen and Zhicheng Dou}, year={2025}, eprint={2507.19849}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2507.19849}, }




