DCAgent2/swebench_verified_random_100_folders_DeepSWE_Preview_20260430_081235
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_DeepSWE_Preview_20260430_081235
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 57551766
num_examples: 300
download_size: 38427332
dataset_size: 57551766
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集源自SWE-bench验证集,通过随机抽取100个任务实例,并利用DeepSWE_Preview框架在2026年4月30日执行生成。构建过程记录了完整的Agent轨迹,包括多轮对话、模型调用、任务描述和验证结果。数据以JSON格式存储,包含30万行训练样本,每个样本均包含时间戳、模型提供商及运行标识等元信息,确保可追溯性与复现性。
特点
数据集以多轮对话为结构化核心,每轮对话包含角色与内容字段,清晰区分用户指令与模型响应。其特点在于整合了任务执行全流程的元数据——从模型版本、提供商到验证器输出——形成一个闭环的调试与评估环境。此外,通过随机采样与标准化字段设计,该数据集在保持SWE-bench基准的权威性的同时,提供了丰富的上下文用于分析Agent行为模式。
使用方法
用户可直接通过HuggingFace Datasets库加载默认配置,利用'train'分割中的300条样本进行模型微调或评估。使用时需解析'conversations'列表以提取指令-响应对,结合'task'和'result'字段作为监督信号。数据集的验证器输出可用于对齐Agent生成结果与真实标准,而'model'与'agent'字段则支持对不同策略进行交叉对比分析。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_DeepSWE_Preview_20260430_081235,创建于2026年4月30日,由DeepSWE研究团队构建,旨在为软件工程领域的自动化任务提供验证基准。其核心研究问题聚焦于评估大型语言模型在真实软件开发场景中的表现,特别是通过多轮对话轨迹与任务执行结果来度量代理的代码生成与修复能力。数据集随机选取了SWE-bench验证集中100个文件夹的实例,覆盖了多种编程挑战,对推动AI辅助编程工具的发展具有重要影响,已成为评估代码智能代理性能的标准化资源之一。
当前挑战
该数据集所解决的领域问题是软件工程中的自动化缺陷修复与任务执行,核心挑战在于模拟真实开发环境中的复杂依赖与上下文理解,要求模型不仅生成正确代码,还需处理构建错误、测试失败等不确定因素。构建过程中遇到的主要挑战包括数据来源的多样性与一致性维护,需从不同仓库中提取标准化任务格式;同时,确保人工验证与自动化验证的可靠性,避免噪声数据干扰模型评估,这要求对每一条轨迹进行细致的筛选与标注,平衡数据规模与质量是另一大难点。
常用场景
经典使用场景
SWE-bench Verified Random 100 Folders 数据集专为评估和训练软件工程智能体(如DeepSWE Preview)而设计,旨在模拟真实世界中的软件仓库环境。其经典使用场景是作为自动化代码修复与调试任务的基准测试平台,研究者可让智能体基于给定的对话历史(conversations)与仓库交互,尝试修复由task字段定义的软件缺陷。该数据集包含来自SWE-bench Verified子集的100个随机任务实例,每个实例都记录了智能体执行的完整对话轨迹(包括角色与内容)、模型信息、运行标识符以及最终修复结果(result)和验证器输出(verifier_output),为端到端的软件工程智能体性能评估提供了标准化框架。
实际应用
在实际应用中,该数据集可作为企业级软件自动调试与持续集成工具的验证基石。开发团队可利用其中多样化的任务场景来测试和迭代自动化修复流水线,例如集成到CI/CD系统中,使智能体能够自动复现并修复生产环境中的缺陷,从而降低人工代码审查成本。数据集的对话记录格式也便于将智能体部署为交互式编码助手,在开发者遇到错误时提供上下文感知的修复建议。此外,其标准化的运行标识(episode、trial_name)支持A/B测试,帮助团队比较不同模型或提示策略的真实修复效果,加速高质量自动化软件开发工具的商业化落地。
衍生相关工作
基于该数据集衍生了一系列重要的学术与工程工作,包括对智能体收敛行为的分析研究、工具调用策略的高效学习框架,以及跨仓库通用修复能力的迁移学习方法。例如,研究者已利用该数据构建了‘SWE-bench Verified’基准,成为评估语言模型代码修复能力的标准测试集;在此基础上催生了如‘DeepSWE’等专用智能体架构,其通过对话历史编码器与结构化搜索策略显著提升了修复成功率。此外,该数据集促进了人机协作编程范式的探索,衍生出用于智能体行为可解释性分析的数据子集,以及面向多轮交互任务的新型评测指标(如基于verifier_output的局部修复评估),持续推动着软件工程与自然语言处理交叉领域的进步。
以上内容由遇见数据集搜集并总结生成



