DCAgent2/bfcl_parity_Qwen2_5_Coder_32B_Instruct_20260425_083530

Name: DCAgent2/bfcl_parity_Qwen2_5_Coder_32B_Instruct_20260425_083530
Creator: DCAgent2
Published: 2026-04-25 11:12:03
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/bfcl_parity_Qwen2_5_Coder_32B_Instruct_20260425_083530

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，包括对话内容（含内容和角色）、代理、模型、模型提供商、日期、任务、剧集、运行ID、试验名称、结果和验证器输出。数据集仅包含一个训练分割，共有369个示例，总大小为7,113,919字节。

The dataset includes multiple features such as conversations (with content and role), agent, model, model_provider, date, task, episode, run_id, trial_name, result, and verifier_output. It contains a single train split with 369 examples and a total size of 7,113,919 bytes.

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

本数据集名为bfcl_parity_Qwen2_5_Coder_32B_Instruct_20260425_083530，源自对大型语言模型Qwen2.5-Coder-32B-Instruct在特定任务上行为模式的系统性记录。构建过程中，研究者围绕柏克莱函数调用库（BFCL）中的任务场景，设计了一系列针对代码生成与函数调用的对话实例。每条数据均包含完整的对话历史、角色标注及模型输出，并通过自动化验证器对结果进行校验，确保结构的一致性与可复现性。数据集共收录369条训练样本，以JSON格式存储，涵盖agent、model、task等多个元信息字段，为后续分析模型在复杂指令执行中的一致性提供了结构化基础。

特点

该数据集的核心特征在于其精细化的多维度标注体系。每条样本不仅记录了模型生成的最终结果，还保留了完整的对话轮次、角色标签以及验证器判断结果，便于研究者深入剖析模型在函数调用任务中的行为轨迹。特别地，数据集中包含的“verifier_output”字段提供了对模型输出的客观评估，为衡量其正确性与可靠性提供了直接依据。此外，通过“episode”、“trial_name”等字段的关联，数据支持对同一任务多次尝试的纵向比较，揭示了模型在不同运行批次间的稳定性与变异性。

使用方法

本数据集适用于监督式微调与模型行为分析两类场景。在使用时，用户可直接依据“conversations”字段中的角色-内容对，构建标准的对话式训练格式，用于提升模型在函数调用任务上的表现。同时，可利用“result”与“verifier_output”字段作为标签，训练判别式模型以预测输出正确性。为便于数据加载，建议采用HuggingFace Datasets库读取，按默认配置即可获得完整的训练拆分。研究者亦可基于“task”或“model”字段进行子集筛选，聚焦特定场景下的模型行为研究。

背景与挑战

背景概述

该数据集名为bfcl_parity_Qwen2_5_Coder_32B_Instruct_20260425_083530，由某研究机构于2025年4月25日创建，核心研究问题聚焦于评估和对比大语言模型在编程任务中的指令遵循（Instruction Following）能力。数据集包含369条训练样本，每条样本记录了模型（如Qwen2.5-Coder-32B-Instruct）在特定编程任务中的多轮对话、任务描述、执行结果及验证器输出。其构建背景源于大语言模型在代码生成与自动化编程领域的迅猛发展，尤其是在指令微调模型（如Qwen2.5-Coder系列）的性能评估需求日益迫切。该数据集通过系统化的对话记录和结果验证，为评估模型在编程任务中的指令对齐能力提供了标准化基准，对推动代码智能体的可部署性和可靠性研究具有重要影响。

当前挑战

数据集所解决的领域挑战在于，现有编程任务数据集多聚焦于静态代码正确性评估，而缺乏对模型在动态多轮对话中持续遵循复杂指令的能力测量，例如模型需在任务执行中根据验证器反馈调整行为。构建过程中遇到的挑战包括：需设计多维度任务（如result和verifier_output字段）来捕捉指令遵循的细粒度差异，同时确保369条样本在多样性和代表性之间平衡，减少对特定模型的过拟合。此外，对话记录的标准化（如role和content字段）要求严格控制数据质量和一致性，避免因标注偏差或模型自身输出噪声导致的评估失真，这对数据采集和验证流程提出了严峻考验。

常用场景

经典使用场景

该数据集以Qwen2.5-Coder-32B-Instruct模型在BFCL（Berkeley Function Calling Leaderboard）基准上的推理输出为核心，构建了一组高质量的多轮对话交互样本。其经典使用场景聚焦于评估和微调大语言模型在函数调用与工具使用方面的能力，尤其是在遵循复杂指令、解析参数约束以及实现多步工具编排时的表现。研究人员常借助该数据集验证模型在结构化API调用任务中的鲁棒性与精确度，从而推动代码生成与智能代理系统的性能边界。

衍生相关工作

该数据集的衍生工作广泛涵盖了函数调用领域的前沿探索。基于其结构化的多轮交互范式，研究者们陆续发展了工具链冲突检测算法、多步推理回溯基准以及上下文感知的API验证框架。此外，相关工作还包括对模型在未见API上的零样本泛化能力分析，以及通过对抗性注入测试模型对恶意工具调用的抵抗力。这些衍生研究共同丰富了代码智能与工具增强语言模型的理论体系，并推动了例如Toolformer、Gorilla等经典范式在工业界的落地演进。

数据集最近研究