five

DCAgent2/swebench_verified_random_100_folders_a1_nemotron_bash_withtests_20260328_071930

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a1_nemotron_bash_withtests_20260328_071930
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 63805481 num_examples: 300 download_size: 47838457 dataset_size: 63805481 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,自动化代码修复与测试验证是提升开发效率的关键环节。swebench_verified_random_100_folders_a1_nemotron_bash_withtests_20260328_071930数据集的构建,基于SWE-bench框架,采用随机抽样策略从真实GitHub仓库中选取100个代码文件夹,每个文件夹包含一个具体的软件工程任务。数据生成过程通过Nemotron模型模拟开发者与系统的对话交互,自动生成Bash命令序列以执行代码修改,并集成测试用例来验证修复结果,最终形成包含对话记录、任务描述、执行结果及验证输出的结构化数据。
特点
该数据集的核心特征体现在其高度仿真与可验证性上。每条数据记录不仅包含多轮对话内容,还完整保留了任务执行环境、模型调用信息以及时间戳,确保了实验的可复现性。数据集特别强化了测试验证环节,通过verifier_output字段提供自动化测试的输出结果,使研究者能够精确评估代码修复的成功率与稳定性。此外,数据集覆盖了多样化的软件工程场景,从简单bug修复到复杂功能调整,为模型训练与评估提供了丰富的语义和逻辑挑战。
使用方法
研究人员可利用该数据集进行代码生成与自动化修复模型的训练与评估。典型使用流程包括加载数据后,提取conversations字段中的对话序列作为模型输入,模拟开发者与系统的交互过程;同时结合task和result字段分析任务目标与实际输出,评估模型执行准确性。验证阶段则重点利用verifier_output判断代码修改是否通过测试,从而量化模型性能。数据集支持端到端实验设计,适用于强化学习、指令微调等多种方法,推动智能编程助手的能力边界。
背景与挑战
背景概述
在软件工程领域,自动化代码修复与测试生成一直是提升开发效率的关键研究方向。swebench_verified_random_100_folders_a1_nemotron_bash_withtests_20260328_071930数据集于2024年由相关研究团队构建,旨在评估大型语言模型在真实软件环境中的问题解决能力。该数据集聚焦于Bash脚本的自动化测试与验证任务,通过模拟实际开发场景中的代码交互过程,为模型性能的量化分析提供了重要基准。其核心研究问题在于探索智能体如何理解复杂代码上下文并执行有效修复,对推动软件自动化工具的演进具有显著影响力。
当前挑战
该数据集所针对的领域挑战在于,软件工程中的代码修复与测试生成需要模型具备深度的逻辑推理与上下文理解能力,以应对多变的代码结构和依赖关系。构建过程中的挑战则体现在数据采集与标注的复杂性上,例如如何从真实软件仓库中提取具有代表性的Bash脚本任务,并确保测试用例的覆盖性与正确性。同时,数据集的验证环节需严格保证结果的可复现性,这要求对智能体交互过程进行精细记录与标准化处理,以支撑可靠的性能评估。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,该数据集为评估代码生成与修复模型的性能提供了标准化基准。其核心场景涉及模拟真实软件开发环境,通过自动化测试验证模型生成的代码片段能否正确解决GitHub仓库中的具体问题。数据集构建了包含对话历史、任务描述与验证输出的结构化记录,使得研究者能够系统分析模型在理解需求、编写代码及通过测试方面的能力。这种设计不仅促进了模型在复杂任务上的评估,还推动了智能编程助手技术的迭代与优化。
实际应用
在实际开发流程中,该数据集可直接用于训练与优化自动化代码修复系统。例如,集成到持续集成管道中,辅助开发者快速定位并修正代码错误;或嵌入IDE插件,实时提供代码补全与漏洞修复建议。其基于真实仓库的结构确保了应用场景的高度贴合,能够提升软件维护效率并减少人工调试成本。此外,它还可为企业和开源社区提供基准测试工具,用于筛选和部署可靠的AI编程助手,推动软件开发向智能化与自动化转型。
衍生相关工作
围绕该数据集,学术界已衍生出多项经典研究,包括基于强化学习的代码生成模型优化、多任务学习框架下的软件错误修复,以及结合静态分析与动态测试的验证方法。这些工作进一步扩展了数据集的用途,例如开发出更鲁棒的代码补全系统、增强模型对复杂依赖关系的理解能力。同时,一些研究聚焦于提升数据集的覆盖范围与难度,引入了更多样化的编程语言与问题类型,为构建下一代智能编程基准奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作