DCAgent2/swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323

Name: DCAgent2/swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323
Creator: DCAgent2
Published: 2026-04-24 23:32:06
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 244808796 num_examples: 1500 download_size: 165844817 dataset_size: 244808796 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于 SWE-bench Verified 任务构建，利用 Qwen3-8B 模型与 OpenThinker 框架进行交互式指令微调数据采集。通过设计“无尽终端”实验范式，模型在多轮对话中模拟软件开发环境中的问题解决流程，每一轮交互均被记录为结构化的 conversation 序列。数据构建过程中引入了验证器（verifier）对模型输出的结果进行自动评估，确保每个样本的可靠性与任务完成度。最终筛选出 1500 条高质量对话样本，涵盖 agent、model、task 等元信息，形成可用于训练与评估的监督微调数据集。

特点

该数据集的核心特点在于其多维度元数据标注与任务驱动设计。每条样本不仅包含完整的对话历史（conversations），还记录了模型身份、任务类型、运行标识符（run_id）以及验证器反馈（verifier_output），为后续分析模型行为与错误模式提供了丰富线索。数据集的“episode”字段追踪同一任务的多次尝试，支持研究模型迭代改进路径。此外，数据规模精简但质量可控，1500 个样本均经过验证器把关，兼具实用性与代表性。

使用方法

该数据集适用于监督微调（SFT）场景，尤其适合训练具有复杂推理与交互能力的代码智能体模型。使用时可直接读取 HuggingFace 格式的 train 分片数据，利用 conversations 字段中的 role 与 content 构建标准对话模板，并结合 result 与 verifier_output 进行奖励建模或选择性训练。建议在微调过程中结合 task 与 episode 信息设计动态采样策略，以提升模型在软件开发任务中的鲁棒性与适应性。

背景与挑战

背景概述

在大型语言模型的演进历程中，指令微调与推理能力的提升始终是学术界与工业界关注的核心议题。swebench_verified_qwen3_8b_openthinker_sft_endless_terminals_20260424_080323数据集由研究团队于2025年构建，聚焦于将Qwen3-8B模型在OpenThinker框架下进行监督微调，以增强其在复杂终端任务场景中的自动化执行能力。该数据集包含1500条训练样本，每条样本均记录了完整的对话历史、代理行为、模型输出及验证结果，构成了一个多轮交互、任务驱动的精细化训练语料。通过引入“无尽终端”这一任务范式，数据集旨在探索语言模型在无终止条件的自主任务推理中的表现，对于推动具身智能与自动化代码代理领域具有重要的基准意义。

当前挑战

当前数据集面临的核心挑战包括三个方面。领域层面，其旨在解决的“无尽终端”任务要求模型在缺少明确终止信号的情况下持续推理与行动，这与传统单轮或有限步任务存在本质差异，对模型的长期依赖与状态维持能力提出了严苛考验。构建层面，数据采集过程需模拟真实终端环境中的多轮交互，如何确保对话流程的语义连贯性与动作合理性，同时避免路径发散或陷入死循环，是数据质量控制的关键难点。此外，验证器输出的有效性判断标准尚需明确，以区分模型是否真正理解任务目标而非通过模式匹配完成任务，这直接影响到微调效果的评估可靠性。

常用场景

经典使用场景

在自然语言处理与代码智能的交叉领域，swebench_verified_qwen3_8b_openthinker_sft_endless_terminals数据集为训练和评估具备复杂推理能力的对话Agent提供了宝贵资源。该数据集涵盖了1500个经过验证的对话实例，每个实例均包含完整的多轮交互记录、任务描述、执行结果及验证器输出。其最经典的使用场景是作为指令微调（Supervised Fine-Tuning, SFT）的高质量语料库，尤其适用于需要长期多步推理、工具调用与错误纠正的软件工程任务。研究者可利用这些结构化的对话序列，训练模型在终端环境中自主拆解需求、调用命令行工具并迭代修正策略，从而在模拟的编程任务中实现端到端的智能体行为习得。

衍生相关工作

围绕该数据集已衍生出多项富有影响力的研究工作。例如，基于其对话轨迹标注的SFT范式，研究者提出了“Agent调优”（Agent Tuning）方法，通过分阶段微调增强了模型在未见过的终端任务上的零样本与少样本泛化能力。还有工作专注于从数据集中提取错误修复模式，构建专门的“错误-错误修复”对，用于训练代码调试专用模型。此外，部分团队利用该数据集的验证器输出来设计奖励模型，通过强化学习进一步优化Agent的决策策略，形成了从SFT到RLHF的完整Agent训练流水线。这些衍生工作共同推动了对话式代码智能体从实验室原型向工业级应用的跨越。

数据集最近研究