five

DCAgent2/swebench_verified_random_100_folders_c1_gpt53_codex_fixed_20260410_211250

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_c1_gpt53_codex_fixed_20260410_211250
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 45163169 num_examples: 300 download_size: 27691606 dataset_size: 45163169 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 名称:对话会话(conversations),为列表类型,其元素包含两个子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 智能体(agent):字符串类型 - 模型(model):字符串类型 - 模型提供商(model_provider):字符串类型 - 日期(date):字符串类型 - 任务(task):字符串类型 - 会话片段(episode):字符串类型 - 运行标识(run_id):字符串类型 - 试验名称(trial_name):字符串类型 - 结果(result):字符串类型 - 校验器输出(verifier_output):字符串类型 划分集: - 名称:训练集(train),字节数:45163169,样本数量:300 下载大小:27691606 数据集总大小:45163169 配置项: - 配置名称:默认配置(default),数据文件: - 对应划分集:训练集(train),文件路径:data/train-*
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,自动化代码修复与测试验证日益成为研究热点。该数据集基于SWE-bench框架构建,通过从GitHub仓库中随机选取100个文件夹,并采用GPT-3.5-turbo与Codex模型生成代码修复方案。每个样本记录了模型与验证系统之间的多轮对话,涵盖任务描述、代码修改尝试及验证结果,最终经过人工核查确保修复的正确性,形成了包含300个实例的训练集。
特点
数据集的核心特征在于其结构化对话格式与多维度元数据。每个实例以对话序列呈现,完整保留了智能体与模型交互的上下文,便于分析代码修复的决策过程。同时,数据集整合了模型提供商、任务标识、运行ID及验证输出等丰富字段,支持对模型性能、任务类型与验证机制的细粒度研究,为评估自动化软件工程工具提供了可靠基准。
使用方法
该数据集适用于训练或评估代码生成与修复模型。研究人员可加载训练分割,利用对话内容模拟智能体与模型的交互场景,通过分析结果字段评估修复成功率。元数据如任务和模型提供商可用于对比实验,探究不同模型在特定软件问题上的表现。验证输出字段则有助于深入理解自动化测试流程,推动软件维护自动化技术的发展。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,自动化代码修复与任务执行已成为提升开发效率的关键研究方向。数据集'swebench_verified_random_100_folders_c1_gpt53_codex_fixed_20260410_211250'于2024年4月由相关研究团队构建,旨在评估大型语言模型在真实软件仓库环境中解决具体编程任务的能力。该数据集聚焦于通过对话交互形式模拟开发者与智能代理的协作过程,核心研究问题涉及模型对复杂代码库的理解、修改与验证的准确性,对推动智能编程助手的发展具有重要实证价值。
当前挑战
该数据集所针对的领域挑战在于如何使语言模型在动态、多文件的软件项目上下文中,精准理解任务需求并生成正确且可执行的代码修改方案,这要求模型具备超越片段级代码生成的系统级推理能力。在构建过程中,挑战体现在确保任务实例的多样性与真实性,需从大量开源仓库中采样并设计可验证的对话轨迹,同时维持数据标注的一致性与结果的可复现性,以避免评估偏差并支撑可靠的性能比较。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,swebench_verified_random_100_folders_c1_gpt53_codex_fixed_20260410_211250数据集为评估大型语言模型在代码修复任务中的性能提供了标准化的测试平台。该数据集通过模拟真实软件开发环境中的错误报告与修复对话,使研究者能够系统地分析模型在理解代码缺陷、生成正确补丁方面的能力。其经典使用场景集中于自动化代码调试与程序合成研究,为模型在复杂软件项目中的实际应用奠定了评估基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在增强型代码修复模型的构建与评估方法创新上。研究者基于其对话结构开发了多轮交互修复框架,并提出了针对代码语义理解的微调策略。相关成果扩展至跨语言代码补全、基于强化学习的修复策略优化等领域,推动了如CodeT5、CodeLlama等模型在软件工程任务中的适应性改进,形成了以对话驱动代码生成为核心的研究脉络。
数据集最近研究
最新研究方向
在软件工程与人工智能交叉领域,SWE-bench数据集作为评估大型语言模型代码修复能力的重要基准,近期研究聚焦于提升模型在复杂、真实世界软件问题中的泛化性能与自动化解决效率。前沿探索涉及多智能体协作框架的设计,通过模拟开发者对话与验证反馈机制,优化模型对代码错误的诊断与修正流程。热点事件包括开源社区对GPT-4、Codex等模型的规模化测试,推动了对代码生成可靠性与安全性的深入讨论。这些进展不仅加速了智能编程助手的实用化进程,也为软件维护自动化提供了可衡量的技术路径,具有显著的工程与学术意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作