DCAgent2/swebench_verified_random_100_folders_c1_kimi_k2_5_fixed_20260410_191847

Name: DCAgent2/swebench_verified_random_100_folders_c1_kimi_k2_5_fixed_20260410_191847
Creator: DCAgent2
Published: 2026-04-11 01:08:41
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_c1_kimi_k2_5_fixed_20260410_191847

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 72675059 num_examples: 300 download_size: 58845039 dataset_size: 72675059 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码修复与测试验证是提升开发效率的关键环节。该数据集通过从SWE-bench基准中随机选取100个代码仓库，并采用特定配置的AI代理进行多轮对话交互构建而成。数据收集过程模拟了真实开发场景，记录了AI代理与代码库的交互对话、任务执行结果及验证输出，确保了数据来源的多样性和任务覆盖的广泛性。

使用方法

该数据集适用于评估AI模型在软件工程任务中的实际表现。研究者可通过加载训练集数据，分析对话序列与任务结果的关联，探索模型在代码理解、错误定位与修复方面的能力。数据中的验证输出字段为性能评估提供了直接依据，支持构建自动化测试管道或作为强化学习训练的环境反馈信号。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码修复与任务执行是提升开发效率的关键研究方向。数据集'swebench_verified_random_100_folders_c1_kimi_k2_5_fixed_20260410_191847'由相关研究团队于2024年构建，旨在评估大型语言模型在真实软件仓库环境中解决具体编程任务的能力。该数据集通过记录智能体与模型的交互对话，聚焦于代码修改、错误调试等核心问题，为衡量模型的实际工程应用效能提供了标准化基准，对推动智能编程助手的发展具有重要影响。

当前挑战

该数据集致力于解决智能体在复杂软件工程场景中执行代码变更任务的挑战，其核心在于如何准确验证模型输出在真实代码库中的正确性与功能性。在构建过程中，挑战主要体现在确保任务实例的多样性与代表性，以及设计可靠的自动化验证机制以评判模型执行结果。同时，协调不同模型提供商的输出格式、处理大规模代码仓库的依赖关系，并保证数据标注的一致性与可复现性，均是构建高质量评估数据的关键难点。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，该数据集为评估大型语言模型在代码生成与修复任务中的性能提供了标准化基准。其核心应用场景集中于模拟真实软件开发环境，通过构建包含对话历史、任务描述与验证输出的结构化交互记录，研究人员能够系统测试模型在理解复杂代码上下文、执行精确修改及通过自动化验证方面的能力。这种设置不仅复现了开发者在处理GitHub问题报告时的典型工作流，还促进了模型在动态、多轮交互中持续学习和适应的评估。

解决学术问题

该数据集有效应对了代码智能领域长期存在的评估碎片化问题，通过提供经过严格验证的随机采样实例，为衡量模型在真实世界软件维护任务中的泛化性能确立了可靠标准。它解决了以往基准中常见的分布偏差与过拟合风险，使得学术研究能够更准确地探究模型在代码理解、错误定位与补丁生成等关键子任务上的极限。这一贡献显著提升了领域内实验的可重复性与比较公平性，推动了从静态代码分析向交互式、问题导向的评估范式转变。

实际应用

在实际软件开发周期中，该数据集支撑的评估框架可直接应用于自动化代码审查与智能辅助编程工具的研发。基于其构建的测试平台能够帮助企业筛选和优化用于代码补全、缺陷修复或文档生成的AI助手，从而降低人工调试成本并提升软件交付质量。此外，它还为持续集成管道中的智能测试生成与回归错误预测提供了数据基础，使得AI驱动的工作流能够更紧密地融入从问题报告到解决方案部署的完整开发生态系统。

数据集最近研究