PersonalAILab/AFM-WebAgent-RL-Dataset

Name: PersonalAILab/AFM-WebAgent-RL-Dataset
Creator: PersonalAILab
Published: 2025-08-20 04:39:04
License: 暂无描述

Hugging Face2025-08-20 更新2025-09-13 收录

下载链接：

https://hf-mirror.com/datasets/PersonalAILab/AFM-WebAgent-RL-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Agent Foundation Models（AFMs）核心训练数据集，采用Chain-of-Agents (CoA)范式，包含SFT数据和RL数据，用于训练模型在多轮工具调用和角色协作中的复杂问题解决逻辑，以及在代理强化学习中的鲁棒性和性能。

Core training dataset for Agent Foundation Models (AFMs), utilizing the Chain-of-Agents (CoA) paradigm, including SFT and RL data for training complex problem-solving logic in multi-turn tool invocation and role collaboration, as well as robustness and performance in agentic reinforcement learning.

提供机构：

PersonalAILab

搜集汇总

数据集介绍

构建方式

该数据集专为智能体基础模型（AFMs）的训练而设计，旨在激发大语言模型端到端的多智能体推理能力。基于新颖的“智能体链（CoA）”范式，数据集利用多智能体蒸馏框架，将最先进的多智能体系统中的协作过程转化为适用于监督微调（SFT）的轨迹数据。这些数据模拟了工具智能体与角色扮演智能体在协作决策中的动态激活过程，涵盖SFT数据和RL数据两部分：SFT数据包含从高级多智能体系统中蒸馏出的高质量轨迹，使模型掌握涉及多轮工具调用和角色协作的复杂问题求解逻辑；RL数据则聚焦于可验证的智能体任务场景，通过智能体强化学习进一步提升模型在CoA推理中的鲁棒性和性能。

使用方法

该数据集可直接用于监督微调和强化学习训练。SFT数据适用于微调基础模型，使其掌握多智能体协作推理能力；RL数据则用于进一步的强化学习训练，以优化模型在复杂智能体任务中的表现。用户可根据需求分别下载SFT和RL数据，并参考提供的项目页面、论文和GitHub仓库获取详细的训练流程和示例代码。数据集采用Apache-2.0许可证，便于研究者和开发者自由使用和扩展。

背景与挑战

背景概述

在大型语言模型（LLM）向智能体化演进的浪潮中，如何激发模型的多智能体协作推理能力成为核心议题。PersonalAILab/AFM-WebAgent-RL-Dataset数据集由OPPO Personal AI Lab于2025年创建，旨在为Agent基础模型（AFMs）提供强化学习训练数据。该数据集基于创新的“智能体链（Chain-of-Agents, CoA）”范式，通过多智能体蒸馏框架，将前沿多智能体系统的协作过程转化为可监督微调的轨迹数据，模拟工具智能体与角色扮演智能体在动态决策中的协同激活。数据集涵盖Web智能体与代码智能体两大场景，其训练出的AFM模型在多项基准测试中刷新了最优性能，为智能体模型训练、智能体强化学习等研究领域提供了高质量的数据基础与开源资源。

当前挑战

该数据集面临的挑战主要体现在两个层面。在领域问题层面，Web智能体任务要求模型在动态变化的网页环境中执行多步操作，涉及元素定位、表单填写、信息抽取等复杂子任务，且需应对页面结构差异与状态不确定性的干扰，对模型的鲁棒性与泛化能力构成严峻考验。在构建过程中，数据集的生成依赖多智能体蒸馏框架，如何从异构智能体系统中提取高质量、无偏见的协作轨迹，并确保强化学习信号在稀疏奖励场景下的有效性，是技术实现上的核心难点。此外，跨场景数据的一致性维护与标注噪声的控制，也增加了数据治理的复杂性。

常用场景

经典使用场景

在智能体基础模型（AFM）的研发进程中，AFM-WebAgent-RL-Dataset作为核心训练资源，专注于激发大语言模型在端到端多智能体协作中的推理能力。该数据集基于创新的“智能体链”（Chain-of-Agents, CoA）范式，通过多智能体蒸馏框架，将先进多智能体系统的协作流程转化为适用于监督微调（SFT）的轨迹数据，模拟工具智能体与角色扮演智能体在协同决策中的动态激活过程。其经典使用场景涵盖网页智能体与代码智能体的基准测试，助力AFM在多样化任务中达到新的最优性能，为复杂问题求解提供坚实的数据基础。

解决学术问题

该数据集精准回应了多智能体系统中协作推理与工具调用效率低下的学术挑战。通过集成SFT数据与强化学习（RL）数据，它解决了模型在多轮交互中难以动态协调工具与角色的问题，显著提升了大语言模型在可验证智能体任务中的鲁棒性与适应性。这一创新不仅突破了传统监督学习在智能体场景中的泛化瓶颈，还为智能体强化学习领域提供了标准化训练范式，推动了端到端多智能体协作理论的发展，其影响在网页导航与代码生成等复杂任务中尤为突出。

实际应用

在实际应用中，AFM-WebAgent-RL-Dataset赋能智能体系统在自动化网页操作与代码调试等场景中展现出卓越效能。例如，它支持模型执行动态网页导航、表单填写及数据提取任务，同时优化了代码生成与错误修复流程。该数据集通过强化学习轨迹，使智能体能够适应真实环境中的不确定性与交互复杂性，从而在客户服务自动化、软件工程辅助及智能办公等领域实现高效部署，显著降低了人工干预需求。

数据集最近研究