DCAgent2/swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 244808796
num_examples: 1500
download_size: 165844817
dataset_size: 244808796
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集基于 SWE-bench Verified 任务构建,利用 Qwen3-8B 模型与 OpenThinker 框架进行交互式指令微调数据采集。通过设计“无尽终端”实验范式,模型在多轮对话中模拟软件开发环境中的问题解决流程,每一轮交互均被记录为结构化的 conversation 序列。数据构建过程中引入了验证器(verifier)对模型输出的结果进行自动评估,确保每个样本的可靠性与任务完成度。最终筛选出 1500 条高质量对话样本,涵盖 agent、model、task 等元信息,形成可用于训练与评估的监督微调数据集。
特点
该数据集的核心特点在于其多维度元数据标注与任务驱动设计。每条样本不仅包含完整的对话历史(conversations),还记录了模型身份、任务类型、运行标识符(run_id)以及验证器反馈(verifier_output),为后续分析模型行为与错误模式提供了丰富线索。数据集的“episode”字段追踪同一任务的多次尝试,支持研究模型迭代改进路径。此外,数据规模精简但质量可控,1500 个样本均经过验证器把关,兼具实用性与代表性。
使用方法
该数据集适用于监督微调(SFT)场景,尤其适合训练具有复杂推理与交互能力的代码智能体模型。使用时可直接读取 HuggingFace 格式的 train 分片数据,利用 conversations 字段中的 role 与 content 构建标准对话模板,并结合 result 与 verifier_output 进行奖励建模或选择性训练。建议在微调过程中结合 task 与 episode 信息设计动态采样策略,以提升模型在软件开发任务中的鲁棒性与适应性。
背景与挑战
背景概述
在大型语言模型的演进历程中,指令微调与推理能力的提升始终是学术界与工业界关注的核心议题。swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323数据集由研究团队于2025年构建,聚焦于将Qwen3-8B模型在OpenThinker框架下进行监督微调,以增强其在复杂终端任务场景中的自动化执行能力。该数据集包含1500条训练样本,每条样本均记录了完整的对话历史、代理行为、模型输出及验证结果,构成了一个多轮交互、任务驱动的精细化训练语料。通过引入“无尽终端”这一任务范式,数据集旨在探索语言模型在无终止条件的自主任务推理中的表现,对于推动具身智能与自动化代码代理领域具有重要的基准意义。
当前挑战
当前数据集面临的核心挑战包括三个方面。领域层面,其旨在解决的“无尽终端”任务要求模型在缺少明确终止信号的情况下持续推理与行动,这与传统单轮或有限步任务存在本质差异,对模型的长期依赖与状态维持能力提出了严苛考验。构建层面,数据采集过程需模拟真实终端环境中的多轮交互,如何确保对话流程的语义连贯性与动作合理性,同时避免路径发散或陷入死循环,是数据质量控制的关键难点。此外,验证器输出的有效性判断标准尚需明确,以区分模型是否真正理解任务目标而非通过模式匹配完成任务,这直接影响到微调效果的评估可靠性。
常用场景
经典使用场景
在自然语言处理与代码智能的交叉领域,swebench_verified_qwen3_8b_openthinker_sft_endless_terminals数据集为训练和评估具备复杂推理能力的对话Agent提供了宝贵资源。该数据集涵盖了1500个经过验证的对话实例,每个实例均包含完整的多轮交互记录、任务描述、执行结果及验证器输出。其最经典的使用场景是作为指令微调(Supervised Fine-Tuning, SFT)的高质量语料库,尤其适用于需要长期多步推理、工具调用与错误纠正的软件工程任务。研究者可利用这些结构化的对话序列,训练模型在终端环境中自主拆解需求、调用命令行工具并迭代修正策略,从而在模拟的编程任务中实现端到端的智能体行为习得。
衍生相关工作
围绕该数据集已衍生出多项富有影响力的研究工作。例如,基于其对话轨迹标注的SFT范式,研究者提出了“Agent调优”(Agent Tuning)方法,通过分阶段微调增强了模型在未见过的终端任务上的零样本与少样本泛化能力。还有工作专注于从数据集中提取错误修复模式,构建专门的“错误-错误修复”对,用于训练代码调试专用模型。此外,部分团队利用该数据集的验证器输出来设计奖励模型,通过强化学习进一步优化Agent的决策策略,形成了从SFT到RLHF的完整Agent训练流水线。这些衍生工作共同推动了对话式代码智能体从实验室原型向工业级应用的跨越。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成与智能体任务领域的监督微调研究,基于Qwen3-8B模型在SWE-bench验证任务中采样的对话数据构建。当前前沿方向在于利用大规模语言模型作为核心代理,通过结构化指令与环境交互完成复杂软件工程任务,如漏洞修复、代码重构等。数据集的构建方式呼应了近期学术界对'强化学习从反馈中优化'与'自我改进'范式的热烈探讨,即利用验证器输出作为信号,驱动模型在多次试验中收敛至更优行为。其意义在于为开源社区提供了一条低门槛的复现路径,推动多轮交互式代码修正向更可靠、更高效的工程实践演进。
以上内容由遇见数据集搜集并总结生成



