DCAgent2/bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260425_070400
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260425_070400
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 6998850
num_examples: 369
download_size: 6879535
dataset_size: 6998850
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集基于柏林自由大学对话数据集(BFCL)构建,并引入了一致性校验机制。具体而言,数据集在设计时以Qwen3-Coder-30B-A3B-Instruct模型在2025年4月25日7点4分生成的对话为原始素材,通过重复实验并比对结果的方式,筛选出具有高度可靠性的对话样本。每条数据均包含完整的对话历史、模型名称、提供者、时间戳及任务信息,并附加验证器输出字段,以记录模型输出是否通过预设的一致性检验。最终整理出369条高质量训练样本,形成结构化的训练集。
特点
数据集的特点在于其内置的‘奇偶性校验’设计,使得每条样本不仅记录模型的多轮对话行为,还通过`verifier_output`字段标记模型回答的逻辑一致性与正确性。每条对话均以`conversations`结构存储,清晰地展现了用户指令与模型回应的交替序列。此外,数据集涵盖了丰富的元信息,包括任务类型、实验批次与运行编号,便于研究者追踪模型在不同场景下的行为差异,从而为评估语言模型在复杂交互任务中的稳定性提供了可靠的基准。
使用方法
使用该数据集时,可直接加载`train`分片中的JSON格式数据。每条样本中的`conversations`字段可用于监督式微调,训练模型学习标准的助手-用户对话模式。`verifier_output`可作为奖励信号或过滤条件,用于强化学习或偏好对齐训练。研究者也可根据`task`、`episode`等字段筛选特定场景的子集,以针对性分析模型在指定任务上的表现。数据集的`model`与`model_provider`字段亦支持跨模型行为比较实验。
背景与挑战
背景概述
在大型语言模型(LLM)的快速发展浪潮中,如何系统性地评估与提升模型在多样化工单与决策场景中的工具调用能力,已成为学术界与工业界共同关注的核心议题。为此,本研究构建了名为“bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260425_070400”的数据集,由研究人员于2025年4月25日创建,旨在聚焦于Qwen系列模型(特别是Qwen3 Coder 30B版本与A3B Instruct变体)在工具调用任务中的表现。该数据集收录了369条经过精心设计的对话实例,每条样本均包含完整的对话流程、代理信息、模型输出及验证结果,为评估模型在复杂推理与工具调用中的一致性、鲁棒性与任务完成度提供了标准化基准。其影响力体现在为后续研究提供了可复现的评估框架,有望推动Agent基础模型在真实应用场景中的实用化进程。
当前挑战
当前数据集所面临的核心挑战主要体现在以下两个方面。首先,在领域问题层面,数据集旨在解决如何确保大型语言模型在工具调用任务中准确理解用户意图、合理选择并执行外部API调用,同时保证输出格式与功能逻辑的高度一致性,这一领域问题对模型的语义理解、规划与纠错能力提出了严苛要求。其次,在构建过程中,数据集需克服样本规模有限(仅369条)与任务多样性之间的平衡难题,同时确保每条对话实例的标注质量、结果验证的客观性以及不同模型版本间的公平对比,此外,还需合理设计reject采样等机制以过滤低质量输出,这些都对数据采集、清洗与验证流程构成了显著挑战。
常用场景
经典使用场景
该数据集以Qwen3 Coder 30B A3B Instruct模型为基础,精心构建了369条多轮对话样本,每条样本均包含完整的对话历史、任务标签、验证器输出以及最终结果。其核心用途在于评估和微调大规模语言模型在复杂函数调用与工具使用场景下的执行能力,尤其适用于检验模型在遵循指令、执行多步骤推理、以及处理具有依赖关系的连续API调用时的表现。研究者可通过该数据集系统性地度量模型在不同难度层级和任务类型上的准确性与鲁棒性。
衍生相关工作
该数据集源自BFCL(Berkeley Function Calling Leaderboard)生态系统,其发布推动了多项关于函数调用框架的后续研究。基于此数据,涌现出诸如参数约束传播学习、局部上下文压缩、以及多模型融合验证等改进工作。同时,它也催生了针对长尾函数模式的少样本学习技术,以及利用验证器输出进行自我纠错的训练范式。这些衍生工作共同拓展了语言模型在结构化交互领域的研究边界,助力代理系统在复杂现实场景中实现更高水平的自主性。
数据集最近研究
最新研究方向
在大型语言模型领域,bfcl_parity_Qwen3_Coder_30B_A3B_Instruct_20260425_070400数据集聚焦于代码生成与智能体协作的前沿研究方向。该数据集通过对Qwen3系列模型在复杂编程任务中的多轮对话记录进行结构化采集,涵盖了模型输出、验证器反馈及任务执行结果等关键维度,为评估代码智能体的推理能力与指令遵循一致性提供了高质量的基准。其意义在于推动代码大模型从单次生成向可回溯、可验证的交互式编程范式演进,尤其契合当前业界对自主代码代理(Code Agent)与多阶段任务分解的热点需求。该数据集的发布将助力研究者在代码补全、bug修复及自动化测试等场景中建立更严谨的评估体系,进而加速AI辅助软件工程的产业化落地。
以上内容由遇见数据集搜集并总结生成



