DCAgent2/dev_set_v2_Qwen3_Coder_480B_A35B_Instruct_FP8_20260429_192340-traces
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/dev_set_v2_Qwen3_Coder_480B_A35B_Instruct_FP8_20260429_192340-traces
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 40377092
num_examples: 300
download_size: 34936254
dataset_size: 40377092
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集名为dev_set_v2_Qwen3_Coder_480B_A35B_Instruct_FP8_20260429_192340-traces,是针对Qwen3 Coder系列模型在FP8精度下推理轨迹的专门采集。构建时,每条样本均包含完整的多轮对话历史(conversations字段),并记录了模型名称(model)、供应商(model_provider)、任务类型(task)及运行批次(episode)等元信息。样本通过统一的工作流进行采集,由验证器输出结果(verifier_output)与最终任务结果(result)共同确保数据的规范性与可控性,最终形成300条高质量训练样本,数据集大小约38.5 MB。
特点
该数据集的核心特色在于其结构化程度与元数据的丰富性。每条数据不仅包含角色与内容清晰分割的对话序列,还附带了agent、run_id、trial_name等实验追踪字段,便于研究者追溯模型行为产生的上下文。验证器输出与任务结果的并存使得该数据集可用于监督微调与推理过程分析。此外,数据以单一训练分割形式提供,聚焦于代码生成场景下的模型交互轨迹,为面向代码智能体的优化提供了精细化的数据支撑。
使用方法
该数据集可通过HuggingFace Datasets库便捷加载,使用默认配置名default读取train分割即可。每条样本的conversations字段为对话列表,每个列表元素包含role(角色,如system、user、assistant)与content(文本内容)。研究者可直接用于微调语言模型,通过将对话序列转化为标准的指令-响应格式;也可结合字段如task、result进行元数据分析,评估模型在不同任务子集上的表现。由于数据量适中,推荐在微调脚本中将其作为验证集或小规模测试集使用。
背景与挑战
背景概述
该数据集名为dev_set_v2_Qwen3_Coder_480B_A35B_Instruct_FP8_20260429_192340-traces,由通义千问团队于2025年4月构建,聚焦于代码生成与智能体交互场景。其核心研究问题在于评估大规模代码模型在精细化指令下的多轮对话能力与任务完成度,涵盖了300条高质量、可追溯的对话踪迹。数据集中包含agent、task、episode等字段,为分析模型行为、推理路径及验证器输出提供了结构化支持。该数据集对代码智能体领域具有重要推动作用,尤其为研究模型在复杂编程任务中的推理链、错误修正与工具调用能力提供了基准参考。
当前挑战
该数据集主要面临的挑战包括:第一,所解决的领域问题为代码智能体的行为评估与生成质量控制,现有模型常因上下文长度限制或记忆衰减而无法维持长程对话的一致性,导致任务中途偏离或失败;第二,构建过程中需确保每条踪迹的真实性与多样性,避免模型在有限数据上过拟合特定模式,同时需要精细设计任务标签(如agent、episode)以捕捉多轮交互中的动态决策过程;第三,数据集的规模仅有300条,对模型泛化能力的检验构成统计效力上的制约,难以覆盖稀缺或长尾的编程用例。
常用场景
经典使用场景
该数据集记录了Qwen3 Coder 480B A35B Instruct FP8模型在特定任务上的推理轨迹与交互过程,经典使用场景聚焦于大型语言模型(LLM)在复杂编程与逻辑推理任务中的行为分析与性能评估。研究人员常利用这些包含多轮对话、模型输出及验证器反馈的轨迹数据,深入剖析模型在代码生成、错误修正及自我反省等环节的决策机制,从而揭示模型在长上下文依赖与分层推理任务中的内在运作规律。
解决学术问题
学术界长期受困于如何精准量化大型代码模型在真实交互环境中的推理质量与鲁棒性。该数据集通过提供标准化、结构化的多轮交互记录,解决了模型评估中缺乏细粒度过程性标注的痛点,使研究者能够探究模型在思维链演化、中间状态验证及结果自纠错等关键环节的表现。其影响在于推动了从单一准确率指标向过程可信度、决策可解释性等多元评估范式的转变,显著提升了代码智能体研究的严谨性与可复现性。
衍生相关工作
该数据集的出现衍生了一系列关于代码模型行为建模与验证的经典工作。其中,基于其轨迹数据开发的推理路径可视化工具帮助研究者识别模型在复杂任务中的常见失败模式,催生了诸如失败感知的微调策略和验证器引导的搜索算法。此外,该数据集被广泛用作基准来对比不同规模、不同训练策略的代码模型在分步推理能力上的差异,进而推动了链式思维蒸馏与过程奖励模型等前沿技术路线的蓬勃发展。
以上内容由遇见数据集搜集并总结生成



