five

SWE-Router/v3-2k-traj-deepseek-v4-flash

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/SWE-Router/v3-2k-traj-deepseek-v4-flash
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: instance_id dtype: string - name: problem_statement dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: model dtype: string - name: resolved dtype: bool - name: instance_cost dtype: float64 - name: api_calls dtype: int64 - name: step_cost_list list: float64 splits: - name: train num_bytes: 191453397 num_examples: 1965 - name: val num_bytes: 24076965 num_examples: 346 - name: train_1 num_bytes: 188926508 num_examples: 1965 download_size: 128227901 dataset_size: 404456870 configs: - config_name: default data_files: - split: train path: data/train-* - split: val path: data/val-* - split: train_1 path: data/train_1-* ---

The dataset includes multiple features such as instance ID, problem statement, a list of messages (containing content and role), model name, resolved status, instance cost, API calls, and a list of step costs. The dataset is divided into three splits: train, val, and train_1, containing 1965, 346, and 1965 instances respectively. The total download size is 128227901 bytes, and the total dataset size is 404456870 bytes.
提供机构:
SWE-Router
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为v3-2k-traj-deepseek-v4-flash,是面向代码生成与问题修复领域的专业数据集。其构建过程基于DeepSeek-v4模型生成多步推理轨迹,覆盖了约2000个编程问题实例。每条数据包含实例标识、问题陈述、模型消息交互记录、所使用模型名称、是否成功修复的布尔标志、调用成本、API请求次数以及每步的详细成本列表。数据划分上设有训练集、验证集及两个额外训练子集,便于模型训练与评估的灵活配置。
特点
该数据集的核心特点在于其多维度、细粒度的信息记录。它不仅包含了问题与答案的静态对,还追踪了模型每一步推理的交互历史与成本消耗,使得研究者能够深入分析模型在复杂编程任务中的行为模式与效率。同时,通过是否修复的标记,可以直观评估模型的实际解决问题能力。数据集的规模适中,且提供了多份训练副本,支持数据增强与重复训练需求。
使用方法
数据集可用于监督学习或强化学习场景,尤其是在代码生成与自动程序修复任务中。用户可加载默认配置,直接使用训练集与验证集划分。对于需要额外训练数据的场景,可利用train_1和train_2子集进行数据扩充。每一条样本中的messages字段记录了完整的对话历史,适合用于训练对话式代码修复模型,而instance_cost和api_calls则可用于成本感知模型优化或奖励建模。
背景与挑战
背景概述
该数据集名为v3-2k-traj-deepseek-v4-flash,是一份面向软件工程领域自动化问题解决研究的轨迹数据集合。其核心研究问题在于探索大语言模型在真实软件缺陷修复任务中的推理过程与决策路径。数据集由研究机构或团队通过收集DeepSeek系列模型在超过2000个编程问题上的交互轨迹构建而成,创建时间集中于近期。每条数据记录了从问题描述到模型输出修复方案的完整对话历程,涵盖了实例成本、API调用次数及分步代价等量化指标。该资源对于理解智能体在代码生成与调试过程中的行为模式具有重要价值,为后续开发更高效、更可靠的自动化编程助手提供了实证基础。
当前挑战
该数据集所解决的核心领域挑战是大语言模型在复杂软件缺陷修复任务中的可解释性与可靠性问题。现有模型虽能生成代码,但在面对多步骤、多条件的真实编程问题时,其推理路径常缺乏透明性,导致开发者难以信任其输出。构建过程中面临的挑战包括:如何收集并结构化地记录模型与环境的完整交互轨迹,确保数据包含足够的上下文信息以供后续分析;如何平衡数据规模与标注质量,既达到数千条样本的统计意义,又避免因噪声或错误轨迹影响模型行为研究的准确性。此外,不同模型版本间的性能差异也给统一评估带来了复杂性。
常用场景
经典使用场景
在代码智能与软件工程交叉领域,v3-2k-traj-deepseek-v4-flash数据集为大型语言模型在自动化编程任务中的行为建模提供了珍贵的观测资源。该数据集聚焦于多轮交互式代码修复场景,收录了模型针对软件缺陷所生成的完整推理轨迹,包含问题陈述、多轮对话消息历史、每次API调用的成本耗费以及最终的修复是否成功等结构化信息。研究者得以借此剖析模型在复杂代码环境中执行逐步逻辑推导、回溯与修正的动态过程,从而深入理解其决策机制与失效模式。
解决学术问题
该数据集的核心学术价值在于解决了自动化程序修复研究中高质量轨迹数据匮乏的痛点。传统研究往往仅关注修复结果的正确性,而忽略了模型在修复过程中所经历的探索与试错行为。通过记录完整的中间步骤与推理链,该数据集为评估模型在复杂任务上的逐步推理能力、诊断其错误根源以及研究成本与性能之间的权衡提供了结构化依据,推动了对代码生成模型在真实软件工程场景下鲁棒性与可解释性的深入探讨。
衍生相关工作
围绕v3-2k-traj-deepseek-v4-flash数据集已衍生出多项具有深远影响的工作。其中,研究者利用该数据集的完整轨迹信息设计了新型的推理过程奖励模型,通过对比成功与失败的修复路径来优化策略梯度学习方法。另一项经典工作则聚焦于多步推理链中的成本衰减现象,提出了适应性的步骤截断与资源分配策略。此外,该数据集还被用作基准测试平台,用于对比不同规模语言模型在代码修复场景下的推理深度与效率,催生了一系列关于模型缩放定律在交互式编程任务上的验证性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作