five

DCAgent2/swebench_verified_random_100_folders_a1_bash_textbook_20260328_071941

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_a1_bash_textbook_20260328_071941
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 90186543 num_examples: 300 download_size: 74474253 dataset_size: 90186543 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 名称:对话(conversations),为列表类型,其子字段包含: - 内容(content),数据类型为字符串 - 角色(role),数据类型为字符串 - 名称:智能体(agent),数据类型为字符串 - 名称:模型(model),数据类型为字符串 - 名称:模型提供商(model_provider),数据类型为字符串 - 名称:日期(date),数据类型为字符串 - 名称:任务(task),数据类型为字符串 - 名称:回合(episode),数据类型为字符串 - 名称:运行ID(run_id),数据类型为字符串 - 名称:试验名称(trial_name),数据类型为字符串 - 名称:结果(result),数据类型为字符串 - 名称:验证器输出(verifier_output),数据类型为字符串 数据集划分: - 名称:训练集(train),字节占用量为90186543,样本总数为300 下载大小:74474253 数据集总大小:90186543 配置项: - 配置名称:默认配置(default),数据文件: - 划分集:训练集,路径为data/train-*
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,自动化测试与代码修复任务对模型性能评估提出了更高要求。该数据集基于SWE-bench框架构建,通过从GitHub仓库中随机选取100个文件夹,结合Bash脚本与教科书式指令生成任务实例。每个实例包含多轮对话记录,模拟真实开发场景中开发者与智能代理的交互过程,涵盖代码理解、错误定位与修复等环节。数据采集过程注重任务多样性与真实性,确保覆盖不同复杂度的软件问题,为模型评估提供丰富且具挑战性的基准。
特点
该数据集的核心特征在于其结构化对话格式与多维元数据标注。每个样本以对话序列呈现,完整保留了角色轮换与内容演进,便于分析交互逻辑。同时,数据集整合了代理类型、模型提供商、任务描述、执行结果及验证输出等关键字段,形成对任务执行过程的全面追踪。这种设计不仅支持端到端的代码修复性能评估,还允许研究者深入探究模型决策链条、错误模式与验证机制之间的关联,为软件工程智能化研究提供细粒度分析基础。
使用方法
使用该数据集时,建议将其作为评估代码生成与修复模型能力的基准工具。研究者可加载对话数据与对应元信息,通过解析任务指令、模型响应及验证结果,量化模型在真实软件问题上的解决效率。典型应用包括:训练对话式代码助手、测试模型对复杂Bash指令的遵循能力,或分析不同验证机制对任务成功率的影响。数据集的标准化格式便于集成至现有评估流程,支持跨模型对比与消融实验,推动软件工程智能体技术的迭代发展。
背景与挑战
背景概述
在软件工程领域,自动化代码修复与任务执行是提升开发效率的关键研究方向。数据集swebench_verified_random_100_folders_a1_bash_textbook_20260328_071941于2026年3月由相关研究团队构建,旨在评估智能体在真实Bash脚本环境中的问题解决能力。该数据集聚焦于智能体与环境的交互对话记录,通过记录模型在特定任务中的执行过程与验证结果,为研究自动化软件维护与智能编码助手提供了重要实证基础,推动了人机协作编程范式的发展。
当前挑战
该数据集的核心挑战在于解决智能体在复杂命令行环境中执行多步骤任务时的鲁棒性与准确性难题,例如处理动态文件系统状态与依赖关系。构建过程中,需确保任务场景的多样性与真实性,同时精确记录对话交互与执行结果,这涉及大量环境模拟与数据验证工作,以避免噪声干扰与评估偏差。
常用场景
经典使用场景
在软件工程与自动化测试领域,swebench_verified_random_100_folders_a1_bash_textbook_20260328_071941数据集为评估智能体在真实代码库中的问题解决能力提供了基准。其经典使用场景聚焦于模拟开发环境,通过包含对话历史、任务描述与验证输出的结构化记录,支持研究者训练或测试模型在Bash脚本任务上的执行与调试性能,从而推动代码生成与修复技术的进步。
实际应用
在实际应用中,本数据集可被集成到持续集成与部署流水线中,用于自动化测试智能体对代码库变更的适应能力。企业或开源项目能利用其评估AI驱动开发工具在识别缺陷、生成补丁或执行系统管理任务时的效率,从而降低人工调试成本,提升软件交付质量与开发流程的智能化水平。
衍生相关工作
围绕该数据集衍生的经典工作包括基于对话历史的代码智能体强化学习框架、多模态软件任务评估基准的扩展,以及针对Bash命令序列生成的专用模型。这些研究不仅深化了对智能体在结构化环境中决策机制的理解,还催生了新一代自动化软件工程工具,推动了AI与软件开发实践的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作