PersonalAILab/AFM-MHQA-Agent-SFT-Dataset

Name: PersonalAILab/AFM-MHQA-Agent-SFT-Dataset
Creator: PersonalAILab
Published: 2025-08-20 04:39:36
License: 暂无描述

Hugging Face2025-08-20 更新2025-09-13 收录

下载链接：

https://hf-mirror.com/datasets/PersonalAILab/AFM-MHQA-Agent-SFT-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Agent Foundation Models训练数据集，包含多智能体蒸馏框架生成的轨迹数据，用于训练模型在多轮工具调用和角色协作中的复杂问题解决逻辑，以及通过智能体强化学习提高推理鲁棒性和性能。

Agent Foundation Models training dataset, containing trajectory data generated by a multi-agent distillation framework, used for training models in complex problem-solving logic involving multi-turn tool invocation and role collaboration, as well as enhancing reasoning robustness and performance through agentic reinforcement learning.

提供机构：

PersonalAILab

搜集汇总

数据集介绍

构建方式

在智能体基础模型研究领域，构建高质量的训练数据是激发模型多智能体推理能力的关键。本数据集采用创新的“智能体链”范式，通过多智能体蒸馏框架，将前沿多智能体系统中的协作过程转化为适用于监督微调的轨迹数据。这一构建方法模拟了工具智能体与角色扮演智能体在协同决策工作流中的动态激活，其核心数据源自NQ_HotPotQA_train等权威开源资源，经过精心提炼与整合，形成了专门针对多跳问答智能体场景的监督微调数据集。

特点

作为专为多跳问答智能体设计的训练资源，该数据集展现出鲜明的技术特征。其核心在于包含了从先进多智能体系统中蒸馏出的高质量轨迹，这些轨迹蕴含了复杂的多轮工具调用与角色协作逻辑，能够有效引导模型学习端到端的问题解决路径。数据集与强化学习数据相辅相成，共同构成了一个完整的训练体系，旨在提升模型在智能体链推理范式下的鲁棒性与性能，为探索智能体模型训练及相关领域的研究者提供了坚实的数据基础。

使用方法

该数据集主要服务于智能体基础模型的监督微调阶段。研究人员可直接加载该数据集，用于训练面向多跳问答任务的智能体模型，使其习得多智能体协作下的复杂推理模式。在实际应用中，该数据集常与对应的强化学习数据集结合使用，以形成从监督微调到智能体强化学习的完整训练流程。通过遵循项目提供的技术文档与论文指引，研究者能够复现或基于此数据基础，进一步探索和优化智能体在多跳问答等场景中的决策与推理能力。

背景与挑战

背景概述

在人工智能迈向通用智能体的演进浪潮中，多智能体协作与推理能力的构建成为关键前沿。PersonalAILab/AFM-MHQA-Agent-SFT-Dataset应运而生，作为智能体基础模型的核心训练数据，其依托于OPPO PersonalAI Lab等研究机构于2025年提出的创新‘智能体链’范式。该数据集旨在激发大语言模型的端到端多智能体推理能力，通过多智能体蒸馏框架，将先进多智能体系统的协作过程转化为适用于监督微调的轨迹数据，从而模拟工具智能体与角色扮演智能体在复杂决策工作流中的动态激活。这一努力直面多跳问答等场景中智能体协同求解的核心研究问题，为探索智能体模型训练与智能体强化学习提供了高质量的数据基石，显著推动了智能体基础模型在多项基准测试中达到前沿性能。

当前挑战

该数据集致力于解决多智能体系统在复杂任务中实现高效、可靠协同推理的领域挑战，其核心在于如何让单一模型内化多智能体动态协作的复杂逻辑与决策轨迹。构建过程中的挑战尤为突出：首先，从异构且先进的多智能体系统中蒸馏出高质量、高保真的协作轨迹数据，需要精巧的设计以捕捉多轮工具调用与角色交互的微妙逻辑；其次，将动态、非结构化的协作流程转化为适用于监督微调的结构化序列，并确保其能有效模拟真实决策工作流，对数据转换的忠实性与泛化性提出了极高要求。这些挑战共同构成了数据集构建的技术壁垒，也定义了其在推动智能体基础模型发展中的关键价值。

常用场景

经典使用场景

在智能体基础模型的研究领域，该数据集作为核心训练资源，其经典应用场景在于通过监督微调与智能体强化学习的结合，系统性地培养大语言模型的多智能体协同推理能力。数据集基于创新的“智能体链”范式，将先进多智能体系统的协作过程蒸馏为高质量轨迹数据，模拟了工具智能体与角色扮演智能体在复杂决策工作流中的动态激活与交互，为模型学习多轮工具调用与角色协作的复杂问题解决逻辑提供了结构化范例。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于智能体基础模型的架构设计与训练方法论。相关研究借鉴其多智能体蒸馏框架，进一步探索了不同协作范式的数据合成策略与效率优化。基于该数据集训练的AFM系列模型，在代码生成与网页交互等多个基准测试中取得了领先性能，验证了“智能体链”范式的有效性。这些工作共同深化了学界对智能体协作机制的理解，并催生了更多关于模型泛化能力、可解释性以及跨领域迁移的研究方向。

数据集最近研究