FunReason-MT

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/Bingguang/FunReason-MT

下载链接

链接失效反馈

官方服务：

资源简介：

FunReason-MT数据集是一个包含10000个高质量多轮样本的数据集，专为多轮函数调用任务设计。它通过三个阶段的数据合成框架生成，能够生成需要环境API图交互、高级工具查询合成和引导迭代链的复杂数据轨迹。

创建时间：

2025-10-23

原始信息汇总

FunReason-MT数据集概述

基本信息

许可证：Apache-2.0
任务类别：问答、文本生成
语言：英语
标签：智能体、代理学习、工具使用、BFCL
规模类别：10K-100K样本量级

数据集内容

训练集规模：包含10,000个高质量多轮对话样本
生成框架：采用FunReason-MT三阶段数据合成框架
- 环境-API图交互：收集目标导向的正确执行轨迹
- 高级工具查询合成：创建抽象多步动作的逻辑跳跃查询
- 引导迭代链：使用自我纠正确保可靠一致的思维链生成

评估结果

BFCLv3多轮与单轮性能

模型	多轮对话(综合)	单轮对话(综合)
Qwen3-4B-Instruct (基线)	15.75	78.19
Qwen3-4B + FunReason-MT (RL)	56.50	85.02

BFCL代理评估(BFCLv4 OOD)

模型	BFCLv4综合得分
FunReason-MT-4B (RL)	15.10

训练详情

训练数据：APIGen函数调用数据和FunReason-MT数据集
训练库：LLama-Factory和Verl
方法：监督微调(SFT)后接强化学习(RL)
硬件：32个NVIDIA H20 GPU

引用信息

bibtex @article{xu2025funreason, title={FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling}, author={Zengzhuang Xu and Bingguang Hao and Zechuan Wang and Yuntao Wen and Maolin Wang and Yang Liu and Long Chen and Dong Wang and Yicheng Chen and Cunyin Peng and Chenyi Zhuang and Jinjie Gu and Xiangyu Zhao and Shi Gu}, journal={arXiv preprint arXiv:2510.24645}, year={2025} }

联系信息

邮箱：bingguanghao7@gmail.com

搜集汇总

数据集介绍

构建方式

在智能体学习领域，FunReason-MT数据集通过创新的三阶段合成框架构建而成。该框架首先利用环境-API图交互机制收集目标导向的正确执行轨迹，随后采用高级工具-查询合成技术生成抽象多步动作的逻辑跳跃查询，最后通过引导式迭代链确保思维链生成过程的可靠性与一致性，借助自我校正机制提升数据质量。整个流程生成了10,000条高质量多轮对话样本，为复杂函数调用任务奠定了坚实基础。

使用方法

基于函数调用任务的技术要求，该数据集主要应用于监督微调与强化学习的联合训练范式。研究人员可借助LLama-Factory等训练库加载数据，通过分阶段优化策略提升模型在多轮对话中的工具使用能力。评估时需参照伯克利函数调用排行榜的标准协议，重点关注模型在分布外场景下的网络搜索与记忆任务表现，从而系统验证智能体在复杂环境中的推理鲁棒性。

背景与挑战

背景概述

在人工智能领域中，多轮函数调用作为增强智能体交互能力的关键技术，长期面临着复杂轨迹建模的挑战。FunReason-MT数据集由Bingguang团队于2025年创建，旨在通过环境-API图交互、高级工具查询合成与引导式迭代链的三阶段合成框架，系统解决多轮函数调用中的逻辑连贯性与执行一致性难题。该数据集包含一万条高质量多轮样本，其构建依托于强化学习与监督微调相结合的方法，显著提升了4B参数模型在伯克利函数调用排行榜中的综合表现，为具身智能与工具学习领域提供了重要的基准支持。

当前挑战

多轮函数调用领域需应对动态环境下的长期依赖建模与错误累积问题，FunReason-MT通过逻辑跳跃查询抽象多步动作，但构建过程中仍需克服三方面挑战：其一，环境-API图交互要求精确捕捉状态转移的语义连续性；其二，工具查询合成需平衡指令复杂性与可执行性边界；其三，引导式迭代链的自我校正机制需确保思维链在长序列中的因果一致性。这些挑战既体现了多轮决策任务的本质困难，也揭示了合成数据框架在泛化性与鲁棒性方面的优化空间。

常用场景

经典使用场景

在智能体与工具交互的研究领域，FunReason-MT数据集被广泛应用于多轮函数调用任务的训练与评估。该数据集通过模拟复杂的环境-API图交互轨迹，支持模型学习在连续对话中动态规划工具使用策略，典型应用于构建能够处理多步骤逻辑推理的对话系统。

解决学术问题

该数据集有效解决了智能体在长程推理中的语义连贯性维持问题，通过自校正的思维链机制提升多轮函数调用的可靠性。其在伯克利函数调用排行榜的优异表现，为突破传统单轮工具调用范式提供了实证基础，推动了具身推理与程序语义融合的理论发展。

实际应用

基于该数据集训练的模型已成功部署于需要复杂工具调用的实际场景，如智能客服系统中的多步骤业务办理、科研工作流的自动化执行等领域。其突出的分布外泛化能力，使智能体在网页搜索与记忆检索等开放任务中展现出接近人类水平的操作连贯性。

数据集最近研究