DCAgent2/swebench_verified_random_100_folders_sft_r2egym_nl2bash_stackoverflow_inferredb66fb652e
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_sft_r2egym_nl2bash_stackoverflow_inferredb66fb652e
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 46839159
num_examples: 300
download_size: 32914900
dataset_size: 46839159
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集源于将多个异构数据源进行有机融合与结构化重构,涵盖了SWE-bench Verified中的随机100个文件夹样本、基于强化学习的R2E-Gym框架生成数据、NL2Bash自然语言转Shell命令任务、Stack Overflow社区问答以及InferredBug推断缺陷样本。通过将这些来源的对话记录、代理行为、模型输出及验证结果统一归约为包含'conversations'、'agent'、'model'等字段的格式,构建了一个多任务、多轮交互的监督微调数据集。最终整理为300条训练样本,以Parquet格式存储,便于高效加载。
特点
该数据集的核心特点在于其高度的多样性与结构化程度。它融合了软件工程基准测试、指令遵循、代码生成与问题解答等多种任务类型,每条样本均包含完整的对话历史、执行代理标识、模型来源及时间戳,并附带了任务结果与验证器输出。这种设计不仅支持了多轮对话的序列建模,还使得研究者能够追溯每段交互的生成环境与效果评估,为分析模型在不同场景下的行为差异提供了丰富元数据。
使用方法
使用时,可直接通过HuggingFace Datasets库加载'train'分割,该库自动从'data/train-*'路径读取Parquet文件。每条样本的'conversations'字段为对话轮次列表,包含角色与内容,可直接用于构建指令微调或偏好对齐的输入格式。'agent'与'model'字段可用于过滤特定生成策略的数据,'verifier_output'可用于弱监督学习或结果校正。建议根据具体任务(如代码生成、对话系统)对样本进行子集划分或格式转换,以适配不同训练框架。
背景与挑战
背景概述
该数据集由多个子数据集融合而成,包括swebench_verified_random_100_folders、sft_r2egym、nl2bash及stackoverflow_inferred等,构建于2024年前后,旨在为软件工程与自然语言处理交叉领域提供多任务微调数据。核心研究问题聚焦于通过指令调优提升语言模型在自动化代码生成、bash命令合成及堆栈溢出问答等场景下的泛化能力。数据集收录了300个训练样本,涵盖agent、model、task及episode等多维元信息,为评估模型在复杂软件工程环境中的表现提供了标准化基准。该数据集的发布推动了从单一任务到多任务联合训练的范式演进,对代码智能领域的实证研究具有重要参考价值。
当前挑战
该数据集所解决的领域挑战包括:1)现有模型在非确定性软件工程任务(如随机文件路径下的代码修复)中泛化能力不足,易受局部模式干扰;2)跨任务数据(如bash脚本与自然语言推断)的异构性要求模型具备更强的语义对齐能力,否则会导致知识迁移负效应。在构建过程中,数据集的融合面临标签一致性难题——不同子数据源的输出格式(如verifier_output字段)与任务定义(如episode字段)需统一规范化,以避免训练目标冲突。此外,小规模样本(300例)在覆盖多样场景的同时,对数据采样策略的均衡性提出了挑战,若分布偏移则易诱发过拟合风险。
常用场景
经典使用场景
该数据集汇聚了来自SWE-bench、Verified、Random 100、Folders、SFT、R2E-Gym、NL2Bash、Stack Overflow及Inferred等多个来源的对话与指令数据,专为训练和评估智能体(agent)在多任务环境中的交互能力而设计。其经典使用场景聚焦于构建能够理解自然语言指令、执行代码生成、实现跨域任务迁移的强化学习或监督微调模型。研究者可借此数据集模拟从软件工程任务到命令行操作、从问答系统到代码库推断的复杂交互流程,从而训练出具备多步推理与工具使用能力的智能体。
衍生相关工作
围绕该数据集已衍生出一系列经典工作,包括基于SWE-bench的代码修复智能体评估框架、利用R2E-Gym的强化学习环境进行策略优化、以及通过NL2Bash任务推动自然语言到命令行接口的端到端模型研究。此外,Stack Overflow与Inferred数据源激发了对社区知识蒸馏与隐式意图推理的探索,相关研究不仅改进了对话系统的上下文理解能力,还催生了多阶段训练范式,即先通过通用数据预训练,再于特定任务上微调,从而提升智能体的整体表现与可解释性。
数据集最近研究
最新研究方向
该数据集聚焦于软件工程领域中的指令微调与智能体自主任务求解,其命名融合了SWE-bench验证集随机采样、R2E-Gym强化学习闭环、NL2Bash自然语言转命令以及Stack Overflow社区知识推理,代表了当前大语言模型在代码生成与调试任务中的前沿融合方向。近期研究热点围绕如何利用这类多源异构数据增强模型在真实软件工程环境中的鲁棒性,尤其是在无人工干预的端到端bug修复与自动化脚本生成场景。该数据集的推出标志着从静态代码理解向动态交互式智能体学习范式的关键转变,为构建可自主执行复杂软件任务的AI助手提供了宝贵的训练基准。
以上内容由遇见数据集搜集并总结生成



