DCAgent2/swebench_verified_random_100_folders_sft_r2egym_nl2bash_stackoverflow_inferredb66fb652e

Name: DCAgent2/swebench_verified_random_100_folders_sft_r2egym_nl2bash_stackoverflow_inferredb66fb652e
Creator: DCAgent2
Published: 2026-04-10 16:04:35
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_sft_r2egym_nl2bash_stackoverflow_inferredb66fb652e

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 46839159 num_examples: 300 download_size: 32914900 dataset_size: 46839159 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集源于将多个异构数据源进行有机融合与结构化重构，涵盖了SWE-bench Verified中的随机100个文件夹样本、基于强化学习的R2E-Gym框架生成数据、NL2Bash自然语言转Shell命令任务、Stack Overflow社区问答以及InferredBug推断缺陷样本。通过将这些来源的对话记录、代理行为、模型输出及验证结果统一归约为包含'conversations'、'agent'、'model'等字段的格式，构建了一个多任务、多轮交互的监督微调数据集。最终整理为300条训练样本，以Parquet格式存储，便于高效加载。

特点

该数据集的核心特点在于其高度的多样性与结构化程度。它融合了软件工程基准测试、指令遵循、代码生成与问题解答等多种任务类型，每条样本均包含完整的对话历史、执行代理标识、模型来源及时间戳，并附带了任务结果与验证器输出。这种设计不仅支持了多轮对话的序列建模，还使得研究者能够追溯每段交互的生成环境与效果评估，为分析模型在不同场景下的行为差异提供了丰富元数据。

使用方法

使用时，可直接通过HuggingFace Datasets库加载'train'分割，该库自动从'data/train-*'路径读取Parquet文件。每条样本的'conversations'字段为对话轮次列表，包含角色与内容，可直接用于构建指令微调或偏好对齐的输入格式。'agent'与'model'字段可用于过滤特定生成策略的数据，'verifier_output'可用于弱监督学习或结果校正。建议根据具体任务（如代码生成、对话系统）对样本进行子集划分或格式转换，以适配不同训练框架。

背景与挑战

背景概述

该数据集由多个子数据集融合而成，包括swebench_verified_random_100_folders、sft_r2egym、nl2bash及stackoverflow_inferred等，构建于2024年前后，旨在为软件工程与自然语言处理交叉领域提供多任务微调数据。核心研究问题聚焦于通过指令调优提升语言模型在自动化代码生成、bash命令合成及堆栈溢出问答等场景下的泛化能力。数据集收录了300个训练样本，涵盖agent、model、task及episode等多维元信息，为评估模型在复杂软件工程环境中的表现提供了标准化基准。该数据集的发布推动了从单一任务到多任务联合训练的范式演进，对代码智能领域的实证研究具有重要参考价值。

当前挑战

该数据集所解决的领域挑战包括：1）现有模型在非确定性软件工程任务（如随机文件路径下的代码修复）中泛化能力不足，易受局部模式干扰；2）跨任务数据（如bash脚本与自然语言推断）的异构性要求模型具备更强的语义对齐能力，否则会导致知识迁移负效应。在构建过程中，数据集的融合面临标签一致性难题——不同子数据源的输出格式（如verifier_output字段）与任务定义（如episode字段）需统一规范化，以避免训练目标冲突。此外，小规模样本（300例）在覆盖多样场景的同时，对数据采样策略的均衡性提出了挑战，若分布偏移则易诱发过拟合风险。

常用场景

经典使用场景

该数据集汇聚了来自SWE-bench、Verified、Random 100、Folders、SFT、R2E-Gym、NL2Bash、Stack Overflow及Inferred等多个来源的对话与指令数据，专为训练和评估智能体（agent）在多任务环境中的交互能力而设计。其经典使用场景聚焦于构建能够理解自然语言指令、执行代码生成、实现跨域任务迁移的强化学习或监督微调模型。研究者可借此数据集模拟从软件工程任务到命令行操作、从问答系统到代码库推断的复杂交互流程，从而训练出具备多步推理与工具使用能力的智能体。

衍生相关工作

围绕该数据集已衍生出一系列经典工作，包括基于SWE-bench的代码修复智能体评估框架、利用R2E-Gym的强化学习环境进行策略优化、以及通过NL2Bash任务推动自然语言到命令行接口的端到端模型研究。此外，Stack Overflow与Inferred数据源激发了对社区知识蒸馏与隐式意图推理的探索，相关研究不仅改进了对话系统的上下文理解能力，还催生了多阶段训练范式，即先通过通用数据预训练，再于特定任务上微调，从而提升智能体的整体表现与可解释性。

数据集最近研究