PersonalAILab/AFM-WebAgent-SFT-Dataset
收藏Hugging Face2025-08-20 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/PersonalAILab/AFM-WebAgent-SFT-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Agent Foundation Models(AFMs)核心训练数据集,用于训练具有端到端多智能体推理能力的大语言模型。数据集基于Chain-of-Agents (CoA)范式,包含从高级多智能体系统中提取的高质量轨迹数据(SFT数据)和用于增强模型鲁棒性的智能体任务场景数据(RL数据)。
Core training dataset for Agent Foundation Models (AFMs), designed to train large language models with end-to-end multi-agent reasoning capabilities. Built on the Chain-of-Agents (CoA) paradigm, the dataset includes high-quality trajectory data extracted from advanced multi-agent systems (SFT data) and task scenario data for enhancing model robustness (RL data).
提供机构:
PersonalAILab
搜集汇总
数据集介绍

构建方式
在智能体基础模型(AFM)的研究范式中,该数据集专为激发大语言模型端到端的多智能体推理能力而设计。其构建基于创新的“智能体链(CoA)”范式,采用多智能体蒸馏框架,将先进多智能体系统中的协作过程转化为适用于监督微调(SFT)的轨迹数据。具体而言,通过模拟工具智能体与角色扮演智能体在协同决策流程中的动态激活机制,蒸馏出高质量轨迹,构成SFT数据核心;同时,针对可验证的智能体任务场景构建强化学习(RL)数据,以增强模型在CoA推理中的鲁棒性。
特点
该数据集兼具双重特性:SFT数据蕴含多轮工具调用与角色协作的复杂问题求解逻辑,使模型习得高级推理能力;RL数据聚焦于可验证的智能体任务,通过智能体强化学习进一步提升模型性能。作为完全开源的高质量资源,它支撑AFM在网页智能体与代码智能体的多项基准测试中取得领先水平,为智能体模型训练、智能体强化学习等研究领域提供了坚实的数据基础。
使用方法
使用该数据集时,研究者可直接从HuggingFace平台下载AFM-WebAgent-SFT-Dataset与AFM-WebAgent-RL-Dataset两部分数据。SFT数据适用于监督微调阶段,用于训练模型掌握多智能体协作与工具调用的决策逻辑;RL数据则用于后续的强化学习训练,以优化模型在复杂智能体任务中的表现。数据以标准格式提供,可便捷地集成至主流深度学习框架中,配合相关论文与项目代码实现高效复现与定制化开发。
背景与挑战
背景概述
在大型语言模型迈向通用智能体的进程中,如何赋予模型端到端的多智能体协同推理能力成为关键瓶颈。PersonalAILab团队于2025年提出的AFM-WebAgent-SFT数据集,正是为了应对这一挑战而诞生的核心训练资源。该数据集由OPPO PersonalAI实验室主导构建,基于创新的“智能体链(Chain-of-Agents)”范式,通过多智能体蒸馏框架将最先进的多智能体系统中的协作过程转化为适用于监督微调的轨迹数据,模拟工具智能体与角色扮演智能体在动态决策流程中的协同激活。这一数据集不仅为智能体基础模型(AFM)提供了高质量的训练基础,更在网页智能体和代码智能体等多个基准测试中推动了新最优性能的达成,为研究者探索智能体训练与强化学习开辟了坚实的资源基石。
当前挑战
当前数据集所面临的挑战主要体现在两个层面。在领域问题层面,多智能体系统需解决复杂任务中工具调用与角色协作的动态规划难题,例如网页智能体需在开放环境中模拟人类操作、协调多个子任务,这对模型的长期推理与错误恢复能力提出了极高要求。在构建过程层面,从先进多智能体系统中蒸馏高质量轨迹数据极具难度,需确保协作逻辑的完整性、避免噪声传播,并平衡监督微调数据与强化学习数据的多样性;同时,跨领域数据(如代码、网页、多跳问答)的异构整合与标注一致性维护,也构成了技术实现上的显著障碍。
常用场景
经典使用场景
AFM-WebAgent-SFT-Dataset最经典的使用场景在于为大语言模型提供端到端的多智能体推理能力训练数据。该数据集基于创新的“智能体链(Chain-of-Agents)”范式,通过多智能体蒸馏框架将先进多智能体系统中的协作过程转化为监督微调轨迹数据。在Web Agent场景中,它使模型能够学习涉及多轮工具调用和角色协作的复杂问题解决逻辑,从而在多样化基准测试中实现新一代最优性能。
解决学术问题
该数据集解决了学术界关于如何有效训练具备多智能体协作能力的基础模型这一关键问题。传统方法往往难以在单一模型中实现动态激活工具智能体和角色扮演智能体的协同决策流程。AFM-WebAgent-SFT-Dataset通过提供高质量蒸馏轨迹,使模型能够掌握端到端的多智能体推理能力,显著提升了在Web Agent环境中的鲁棒性和性能,为智能体模型训练和智能体强化学习研究奠定了坚实的数据基础。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于其SFT数据和RL数据训练的AFM-WebAgent系列模型(如7B和32B参数版本),这些模型在Web Agent基准测试中取得了显著成果。此外,该工作还催生了TaskCraft等关联数据集,并推动了智能体链范式的进一步发展,为后续研究提供了可复现的高质量基线,促进了多智能体蒸馏和智能体强化学习领域的学术探索与工业应用。
以上内容由遇见数据集搜集并总结生成



