DCAgent2/bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260430_164252
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260430_164252
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: tool_definitions
list:
- name: function
struct:
- name: description
dtype: string
- name: name
dtype: string
- name: parameters
struct:
- name: additionalProperties
dtype: bool
- name: properties
struct:
- name: code
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: command
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: file_text
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: insert_line
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: is_input
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: message
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: new_str
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: old_str
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: path
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: security_risk
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: task_list
struct:
- name: description
dtype: string
- name: items
struct:
- name: additionalProperties
dtype: bool
- name: properties
struct:
- name: id
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: notes
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: status
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: title
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: required
list: string
- name: type
dtype: string
- name: type
dtype: string
- name: thought
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: timeout
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: view_range
struct:
- name: description
dtype: string
- name: items
struct:
- name: type
dtype: string
- name: type
dtype: string
- name: required
list: string
- name: type
dtype: string
- name: type
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 23249468
num_examples: 368
download_size: 22921024
dataset_size: 23249468
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集的构建基于BFCL(Berkeley Function Calling Leaderboard)基准测试框架,以Qwen3-Coder-30B-A3B-Instruct模型为核心,通过系统性地收集模型在工具调用任务中的交互数据而形成。具体而言,数据集涵盖了模型在多种编程与系统操作场景下的对话历史,包括文件编辑、命令执行、代码生成及任务管理等环节。每条样本记录了完整的多轮对话内容,并附带了结构化工具定义,其中详细描述了各个函数、参数类型、枚举值及必要字段,确保工具调用的语义完整性。此外,数据还标注了执行结果与验证器输出,用于评估模型对工具使用的准确性与安全性。
特点
该数据集的一大特色在于其精细的字段设计与丰富的标注维度。每条样本包含conversations字段,忠实还原了多轮人机交互的原始对话;tool_definitions字段则提供了严格的函数Schema定义,涵盖description、name、parameters及其复杂嵌套结构,例如用于文件编辑的路径与字符串替换参数、用于任务管理的状态与标题字段等。这种设计充分模拟了真实开发环境中的API调用场景。此外,数据集记录了模型名称(model)、提供商(model_provider)、任务类型(task)以及具体运行标识(run_id、trial_name),为模型对比与复现实验提供了坚实支撑。
使用方法
该数据集的引用格式为HuggingFace标准数据集结构,可直接通过HuggingFace Datasets库加载使用。用户只需指定数据集名称与split(当前仅提供train分割),即可获取368条结构化的工具调用样本。每条样本中的conversations字段可直接用于训练或评估对话模型在函数调用场景下的表现;tool_definitions则适合作为指令微调中工具Schema的输入模板。研究者可基于agent、model或task字段进行子集筛选,以聚焦特定场景或模型的分析。此外,result与verifier_output字段提供了客观的评估标签,便于进行自动化评测与结果验证。
背景与挑战
背景概述
在大型语言模型(LLM)与工具调用(Tool Calling)能力快速演进的背景下,研究者逐渐关注模型在复杂、多步骤任务中调用外部函数(如代码执行、文件操作、安全决策)的准确性与鲁棒性。bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260430_164252数据集由Qwen团队等机构于2025年4月创建,旨在评估和改进通义千问(Qwen)系列模型在软件工程自动化场景中执行多工具调用任务的对等性(parity)表现。该数据集围绕“如何确保模型在给定工具定义下正确理解函数参数结构、枚举值约束及递归对象”这一核心研究问题设计,对推动LLM在智能编程助手、自动化代码审查等领域的应用具有重要参考价值,尤其为Benchmark for Function Calling and Language Understanding (BFCL) 系列基准提供了新维度的评估数据。
当前挑战
该数据集面临的挑战首先是领域难题:工具调用任务要求模型精准解析包含嵌套对象、枚举类型与必填字段的复杂JSON Schema,而模型常因对参数类型(如bool、string)或条件约束(如security_risk的枚举值集合)理解偏差导致调用失败,这直接影响了LLM在自动化软件工程中的实用性。构建过程中,挑战体现为:如何设计涵盖代码修改(code)、文件编辑(file_text)、任务列表管理(task_list)等多功能领域的真实对话场景,并确保每个样本的tool_definitions既能体现实际开发复杂度(如view_range的数组结构),又保持人工标注与模型输出间的结果可验证性(verifier_output字段),368条训练实例的规模要求样本必须高度浓缩代表性边界情况与潜在错误模式。
常用场景
经典使用场景
在智能体与工具调用的交汇领域,该数据集通过记录Qwen3 Coder模型在多轮交互中对复杂工具函数的调用轨迹,为研究者提供了评估和训练大型语言模型函数调用能力的绝佳素材。其经典使用场景聚焦于代码生成与执行、文件操作以及安全风险判断等任务,利用结构化的对话历史与详尽的工具定义,模拟了智能体在真实环境中需自主决策调用何种工具、传递何种参数的智能行为,从而成为测试模型任务规划与工具使用能力的基准。
衍生相关工作
该数据集衍生了一系列深化工具调用能力的经典工作,例如基于其对话结构提出的“工具链推理”框架,引导模型在多次调用中形成连贯的逻辑链条;又如利用其安全风险字段发展的“安全感知型智能体”方法,使得模型在调用潜在危险操作前能自动进行风险评估。此外,研究社区在此数据基础上构建了多轮对话的子集,专门用于训练模型在记忆缺失或工具返回错误时的恢复策略,推动了任务导向型对话系统的理论进步。
数据集最近研究
最新研究方向
BFCL (Berkeley Function Calling Leaderboard) 及其衍生数据集如 bfcl_parity 正引领着大语言模型在工具调用与多步推理融合领域的前沿探索。该数据集聚焦于评估模型在执行复杂、多步骤软件工程任务(如代码编辑、文件操作、任务分解、安全性审查)时的函数调用能力与指令遵循精度。随着 AI Agent 和自主编程工具(如 Cursor、Devin)成为业界热点,BFCL Parity 构建了包含细粒度参数约束(如 view_range、timeout、security_risk)的真实场景语料,强化了模型对结构化工具定义的精确理解和多工具协作能力。其重要意义在于为衡量智能体在动态交互环境中的鲁棒性提供了标准化基准,推动了从简单对话生成向可执行、可验证的代码代理行为的范式转变。
以上内容由遇见数据集搜集并总结生成



