DCAgent2/swebench_verified_random_100_folders_R2EGym_32B_Agent_20260424_235404
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_R2EGym_32B_Agent_20260424_235404
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: tool_definitions
list:
- name: function
struct:
- name: description
dtype: string
- name: name
dtype: string
- name: parameters
struct:
- name: additionalProperties
dtype: bool
- name: properties
struct:
- name: code
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: command
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: file_text
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: insert_line
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: is_input
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: message
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: new_str
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: old_str
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: path
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: security_risk
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: task_list
struct:
- name: description
dtype: string
- name: items
struct:
- name: additionalProperties
dtype: bool
- name: properties
struct:
- name: id
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: notes
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: status
struct:
- name: description
dtype: string
- name: enum
list: string
- name: type
dtype: string
- name: title
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: required
list: string
- name: type
dtype: string
- name: type
dtype: string
- name: thought
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: timeout
struct:
- name: description
dtype: string
- name: type
dtype: string
- name: view_range
struct:
- name: description
dtype: string
- name: items
struct:
- name: type
dtype: string
- name: type
dtype: string
- name: required
list: string
- name: type
dtype: string
- name: type
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 179760582
num_examples: 297
download_size: 164352724
dataset_size: 179760582
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
在软件工程领域,评估大语言模型代码生成与调试能力需要高质量的多轮交互数据。本数据集源自SWE-bench已验证任务集,从中随机抽取100个代表性实例,并利用R2EGym框架与32B规模智能体进行多回合交互,最终选取2026年4月24日23:54:04时刻的运行日志构建而成。每条记录包含完整的工具调用定义、对话历史、代理身份、模型信息、任务描述及验证器输出,结构严谨且元数据丰富。
特点
该数据集的核心特点在于其深度结构化的交互信息:tool_definitions字段详尽定义了代码编辑、文件操作、命令执行、安全评估等多项工具的参数规范,conversations字段则忠实记录了智能体与环境的完整对话流转。此外,数据包含297条训练样本,每条均附有最终结果与验证器反馈,不仅可用于监督式微调,还支持强化学习中的奖励建模与行为克隆研究,兼具实用性与学术价值。
使用方法
使用时可直接加载数据集中的train分割,每条样本包含多轮conversations列表、agent标识、模型提供商及日期等元信息。对于对话建模任务,可提取content与role字段构建多轮对话序列;针对工具学习场景,可解析tool_definitions与conversations中函数调用的对应关系。此外,result与verifier_output字段可作为二分类或多分类标签,用于训练结果预测模型或验证器校准,灵活适配多种研究目标。
背景与挑战
背景概述
该数据集来源于对SWE-bench Verified子集的精选与深度交互模拟,由研究团队于2024年4月构建,旨在系统评估和提升大语言模型在软件工程任务中的代码生成与修复能力。核心研究问题聚焦于如何通过细粒度的多轮对话轨迹(包含工具调用、代码编辑、任务分解等结构化数据)来训练更可靠的自主编程智能体。作为连接静态代码理解与动态环境执行的桥梁,该数据集为探索基于Agent的自动化漏洞修复、功能实现等复杂场景提供了高保真训练语料,对推动AI辅助软件开发领域的发展具有重要实践价值。
当前挑战
该数据集所应对的领域核心挑战在于软件工程任务的高度复杂性与环境依赖性——模型需在真实仓库上下文中理解需求、定位Bug并生成可行补丁,远超传统代码补全的难度。构建过程中面临的挑战尤为突出:如何从SWE-bench Verified的100个实例中采样并设计多轮交互逻辑以覆盖典型修复路径;如何在32B规模的开源Agent(如DeepSeek-V2)上采集到既多样又高质量的对话轨迹,避免探索陷入局部最优;以及如何通过严格的验证器(verifier_output)过滤无效解,确保每个训练样本的最终结果(result)具备可复现性与正确性。
常用场景
经典使用场景
该数据集源自SWE-bench验证集,精选了100个具有代表性的软件工程任务,并利用R2EGym框架与32B规模的智能体进行交互,生成了多轮对话数据。其最经典的用途在于训练和评估能够自主理解、规划并执行复杂软件修复任务的代码智能体。通过记录智能体在真实代码仓库中的完整行动轨迹——包括文件浏览、代码编辑、命令执行等操作——它为研究如何将大型语言模型转化为实用、可靠的软件工程助手提供了标准化的交互数据基底。
衍生相关工作
围绕此类交互式代码修复数据,学术界已涌现出一系列衍生工作。一方面,研究者基于类似数据训练出专门的‘代码修复Agent’,如SWE-Agent系列,通过强化学习进一步提升补丁准确率。另一方面,该数据格式催生了‘Agent学习范式’的创新,例如利用成功修复轨迹构建正样本、失败轨迹用于偏好对齐或DPO训练。此外,数据中的工具调用序列也被用于研究模型工具使用能力的迁移学习,以及零样本条件下模型能否泛化至未见过的新型代码库中。
数据集最近研究
最新研究方向
在软件工程与大型语言模型交叉的前沿领域,swebench_verified_random_100_folders_R2EGym_32B_Agent_20260424_235404数据集聚焦于基于强化学习范式的智能体代码修复能力评估。该数据集通过对SWE-bench已验证问题的随机抽样,构建了包含工具操作轨迹与多轮对话记录的细粒度训练语料,其核心贡献在于推动代码智能体从单纯补全向主动探索与迭代修复的范式跃迁。近期研究热点集中于利用此类结构化交互日志训练32B级模型,使其在复杂仓库级代码缺陷修复任务中展现类似人类开发者的思考链与安全感知能力。该数据集的深远意义在于为构建可观测、可追溯的自主编程智能体提供了标准化基准,其tool_definitions字段定义的工具调用约定与验证器输出机制,正成为评估大模型真实工程能力的重要标尺,有望重塑自动化软件维护的技术演进路径。
以上内容由遇见数据集搜集并总结生成



