five

Agent的Function Call SFT RL训练数据集Demo+脚本

收藏
魔搭社区2026-04-07 更新2026-05-03 收录
下载链接:
https://modelscope.cn/datasets/rockingdingo/tutorial_agent_training_sft_rl
下载链接
链接失效反馈
官方服务:
资源简介:
Tutorial on Running SFT/RL/Post Training of Function Calls and RL Dataset 包含训练数据集SFT/RL/Posting Training的脚本,使用 trl 和 verl package来加载。1.Running Function Call SFT on Open Source Agent Models,2.Running Reinforcement Learning on RL Datasets,2.1 Scalar Rewards on a List of Messages This RL scenario is suitable to improve on a list of tool call and messages session list, not the tool_call output. 2.2 Reward of Tool Call Ground Truth vs Current Completion If you want to improve the tool_call accuracy Pass@K, such as 'tool choice' accuracy or parameters inference accuracy, you can organize the datasets together with the function call datasets and get the completion history of available tools, prompt, and tool_call output.

函数调用与强化学习数据集的监督微调(Supervised Fine-Tuning,SFT)、强化学习(Reinforcement Learning,RL)及后训练教程 本教程包含用于该类数据集的监督微调、强化学习及后训练脚本,依托trl与verl库完成数据加载。 1. 开源AI智能体(AI Agent)模型的工具调用(tool_call)监督微调运行流程 2. 强化学习数据集上的强化学习训练流程 2.1 消息序列的标量奖励训练场景 该强化学习场景适用于优化工具调用与消息会话序列的整体表现,而非仅针对工具调用输出本身。 2.2 工具调用真实标注与当前生成结果的奖励计算 若需优化工具调用的Pass@K准确率,例如工具选择准确率或参数推理准确率,可将相关数据集与函数调用数据集整合,并获取可用工具、提示词(Prompt)及工具调用输出的生成历史。
提供机构:
maas
创建时间:
2025-12-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集旨在为AI代理的函数调用任务提供监督微调(SFT)和强化学习(RL)的训练数据与脚本。它包含示例数据和相关代码,帮助开发者实现基于开源模型的训练,并遵循Apache 2.0许可证。数据集提供了下载和快速启动指南,适用于改进代理在工具调用和消息会话中的性能。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务