DCAgent2/swebench_verified_random_100_folders_a1_nemotron_bash_withtests_gpt5mini_202603522bd8ae
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a1_nemotron_bash_withtests_gpt5mini_202603522bd8ae
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 64381761
num_examples: 299
download_size: 49450346
dataset_size: 64381761
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
在软件工程自动化测试的前沿领域,swebench_verified_random_100_folders_a1_nemotron_bash_withtests_gpt5mini_202603522bd8ae数据集的构建体现了严谨的实证研究范式。该数据集通过从SWE-bench基准中随机抽取100个独立的代码仓库文件夹,并采用nemotron_bash环境结合自动化测试脚本进行交互式任务执行。每个数据实例记录了智能体(agent)与模型在特定任务下的多轮对话(conversations),同时整合了任务描述、运行标识、执行结果及验证器输出等元数据,形成了结构化的轨迹记录。其构建过程强调可复现性,所有交互均基于标准化环境与预定义测试套件完成。
特点
该数据集的核心特征在于其高度结构化与可验证的设计。每个样本不仅包含模型与环境的完整对话历史,还附带了详尽的元数据,如任务类型、模型提供方、运行时间及唯一标识符,确保了数据溯源的清晰性。特别地,数据集引入了验证器输出字段,为评估模型在代码修复或任务执行中的实际效果提供了客观的评判依据。数据以JSON格式组织,支持高效的批量处理与分析,且所有交互均基于真实代码仓库与测试用例,增强了其在软件工程研究中的生态效度。
使用方法
研究人员可利用该数据集进行代码生成模型的行为分析与性能评估。典型使用流程包括加载数据集后,依据任务或模型类型筛选样本,深入解析对话序列以理解模型决策逻辑,并结合验证器输出量化任务完成成功率。数据集适用于训练或微调代码智能体,也可作为基准测试集,用于比较不同模型在复杂软件工程任务上的表现。使用时应注重环境一致性,建议在类似bash的交互式测试框架中复现任务,以确保评估结果的可靠性。
背景与挑战
背景概述
在软件工程领域,自动化代码修复与测试生成是提升开发效率的关键研究方向。数据集swebench_verified_random_100_folders_a1_nemotron_bash_withtests_gpt5mini_202603522bd8ae由相关研究团队于近期构建,旨在探索基于对话式智能体与大型语言模型的代码任务执行能力。该数据集聚焦于通过自然语言交互驱动代码修改与验证过程,核心研究问题涉及如何有效评估模型在真实软件环境中的功能性表现,其构建为自动化软件维护与智能编程助手的发展提供了实证基础,推动了代码生成与测试一体化研究的前沿进展。
当前挑战
该数据集致力于解决软件工程中自动化代码修复与测试验证的复杂性问题,其挑战首先体现在领域层面:代码修改需兼顾语法正确性、语义一致性及功能完整性,而动态软件环境的多样性使得模型泛化能力面临严峻考验。构建过程中的挑战则源于数据采集与标注的高成本,例如需要模拟真实开发场景中的对话交互,并确保测试用例的覆盖性与结果验证的可靠性,同时还需处理不同编程语言与框架的异构性,这些因素共同增加了数据集构建的复杂性与技术难度。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,swebench_verified_random_100_folders_a1_nemotron_bash_withtests_gpt5mini_202603522bd8ae数据集为评估大型语言模型在代码修复任务中的性能提供了标准化基准。该数据集通过模拟真实软件开发环境中的错误修复场景,要求模型基于对话历史、任务描述和测试用例,自动生成或修改Bash脚本以通过验证。这一场景典型地应用于衡量模型在理解代码上下文、执行逻辑推理以及生成可执行修复方案方面的能力,是推动智能编程助手发展的核心实验平台。
实际应用
在实际开发流程中,该数据集支撑的模型能力可直接集成至持续集成/持续部署(CI/CD)管道,实现自动化错误检测与即时修复。例如,在代码提交后,系统可自动分析测试失败报告,调用训练有素的模型生成修补建议,从而加速调试周期,降低人力成本。此外,它也为构建智能编程插件、代码审查辅助工具以及教育性编程环境提供了核心训练与评估数据,助力提升开发效率与代码质量。
衍生相关工作
围绕该数据集,研究社区已衍生出一系列经典工作,包括基于强化学习的代码修复策略优化、多模态上下文编码架构的设计,以及针对测试驱动修复的专门化模型微调方法。这些工作不仅扩展了数据集的用途,还催生了新的评估指标与基准测试框架,进一步推动了自动化软件工程领域的技术演进,并为后续更大规模、更复杂场景的代码修复数据集构建提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



