DCAgent2/bfcl_parity_Kimi_K2_5_20260430_052737

Name: DCAgent2/bfcl_parity_Kimi_K2_5_20260430_052737
Creator: DCAgent2
Published: 2026-04-30 05:40:02
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/bfcl_parity_Kimi_K2_5_20260430_052737

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个对话数据集，包含多轮对话（conversations），其中每轮对话有内容和角色信息。数据集还记录了代理（agent）、模型（model）、模型提供者（model_provider）、日期（date）、任务（task）、集数（episode）、运行ID（run_id）、试验名称（trial_name）、结果（result）和验证器输出（verifier_output）等特征。数据分为训练集（train），包含369个示例，总大小约3.94 MB。该数据集可能用于AI模型在对话任务上的性能评估和测试。

数据集信息：特征字段： - 字段名：conversations，中文含义为对话列表，为列表类型，其内部元素包含： - 名称：content，中文含义为内容，数据类型：字符串 - 名称：role，中文含义为角色，数据类型：字符串 - 字段名：agent，中文含义为AI智能体（AI Agent），数据类型：字符串 - 字段名：model，中文含义为模型，数据类型：字符串 - 字段名：model_provider，中文含义为模型提供商，数据类型：字符串 - 字段名：date，中文含义为日期，数据类型：字符串 - 字段名：task，中文含义为任务，数据类型：字符串 - 字段名：episode，中文含义为对话片段，数据类型：字符串 - 字段名：run_id，中文含义为运行ID，数据类型：字符串 - 字段名：trial_name，中文含义为试验名称，数据类型：字符串 - 字段名：result，中文含义为结果，数据类型：字符串 - 字段名：verifier_output，中文含义为校验器输出，数据类型：字符串划分集： - 名称：train（训练集），字节占用量：3938269，样本数量：369 下载大小：3829942 数据集总大小：3938269 配置项： - 配置名称：default（默认配置），关联数据文件： - 划分集：train（训练集），文件路径：data/train-*

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于BFCL（Berkeley Function Calling Leaderboard）基准构建，旨在评估大语言模型在函数调用任务上的表现。数据集的构建过程通过自动化的多轮对话生成流程实现，利用Kimi K2.5模型作为智能体，在控制实验参数（如模型温度、top-p等）不变的条件下，系统性地采集了369条对话样本。每条样本包含完整的对话历史、模型身份标识、任务描述、运行编号及验证结果，形成了结构化的评估数据。

特点

数据集的显著特点在于其多维度标注体系，不仅记录了对话内容（conversations），还包含了agent、model、model_provider、date、task、episode、run_id、trial_name等元数据字段，为深入分析模型在不同任务场景下的函数调用表现提供了丰富的信息。此外，result与verifier_output字段的引入，使得模型输出的准确性和可靠性能够被量化验证，从而支持对模型能力进行精细化评估。

使用方法

该数据集主要通过HuggingFace Datasets库加载使用，默认配置为'default'，训练集包含全部369条样本。用户可通过指定split参数为'train'获取数据，每条样本的字段结构清晰，便于直接用于模型微调、性能评估或对比实验。建议研究者在进行函数调用任务相关研究时，结合数据集中提供的元数据字段进行分组分析，以揭示模型在不同任务类型和运行条件下的表现差异。

背景与挑战

背景概述

该数据集名为bfcl_parity_Kimi_K2_5_20260430_052737，由Kimi团队于2025年创建，聚焦于大语言模型在任务导向型对话和工具调用场景下的性能评估。随着大语言模型在复杂多步推理和外部工具交互中的广泛应用，如何构建高置信度的基准测试成为领域核心问题。该数据集通过记录模型与Agent系统的完整对话轨迹，系统性地探究模型在任务分解、工具选择及执行结果验证等方面的能力，为衡量模型在真实世界任务中的鲁棒性和可靠性提供了关键资源。其影响力体现在对多智能体协作评测范式的推动上，尤其强化了过程与结果双重验证的评估框架。

当前挑战

该数据集所解决的领域挑战包括：其一，传统静态基准难以捕捉模型在多轮交互中的动态决策能力，而本数据集通过结构化对话历史和任务属性标注，实现了对模型规划与执行一致性的细粒度评估；其二，构建过程中需解决对话数据中隐式依赖关系的有效提取问题，以及不同模型在不同配置下（如Agent模式）输出差异的标准化对齐。这些挑战的克服有助于提升评测的公平性与可复现性，推动大语言模型在复杂任务场景中的实用化进程。

常用场景

经典使用场景

在智能体与工具调用领域，bfcl_parity_Kimi_K2_5_20260430_052737数据集为多轮对话中的函数调用能力评估提供了标准化基准。其经典使用场景聚焦于测试语言模型在复杂指令下解析API参数、处理嵌套函数链以及管理多步骤工具调用流程的准确性与鲁棒性。研究者常借助该数据集模拟真实世界的Agent交互，如让模型依据用户模糊意图自动选择并调用多个外部服务，进而衡量其任务完成度与错误恢复能力。

实际应用

在实际工程中，该数据集被用于优化智能客服系统中的自动化工作流引擎。企业级应用如调用CRM系统查询订单状态、联动支付网关发起退款等场景，均需模型精准解析多模态指令。数据集中包含的并发调用与异常处理用例，直接支持了低延迟、高可靠的工具编排系统的开发，有效提升了金融、电商等领域中RPA（机器人流程自动化）的部署效率与容错水平。

衍生相关工作

基于该数据集衍生出一系列经典工作，包括函数调用策略蒸馏（如将复杂工具链压缩至小模型）和对抗性函数设计方法（生成边界案例以增强模型泛化性）。部分研究者还将其与ReAct框架结合，提出了多任务并行调用的强化学习路径，以及通过自我校验机制优化工具选择准确率的树搜索策略。这些工作共同推动了LLM-driven Agent范式在结构化任务中的成熟应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集