DCAgent2/swebench_verified_random_100_folders_c1_kimi_k2_5_20260409_234953

Name: DCAgent2/swebench_verified_random_100_folders_c1_kimi_k2_5_20260409_234953
Creator: DCAgent2
Published: 2026-04-10 14:10:45
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_c1_kimi_k2_5_20260409_234953

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 182477068 num_examples: 300 download_size: 173132680 dataset_size: 182477068 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集源自SWE-bench Verified基准测试，通过随机抽取100个软件工程任务构建而成。每个任务由Kimi K2模型在5次运行中生成的交互轨迹构成，共计300条高质量对话样本。数据收集过程涵盖了模型与环境的完整互动记录，包括任务描述、模型回复、验证结果等关键信息，最终以结构化格式存储于HuggingFace平台。

特点

数据集具有多维度的结构化特征，包含对话内容、角色标识、模型名称、运行时间、任务详情及验证输出等字段。其独特之处在于每条数据均附有完整的agent交互历史和可复现的运行标识，支持精细化分析模型在复杂软件工程场景中的表现。300条样本平衡了数据规模与研究深度，适合进行多轮对话生成与代码修复任务的评估。

使用方法

用户可通过HuggingFace Datasets库直接加载该数据集，选择'train'分片即可获得完整的300条对话记录。每条数据以JSON格式呈现，包含conversations列表、任务标识和验证结果字段，便于研究人员复现实验或微调模型。建议结合SWE-bench官方评估工具进行结果验证，以衡量模型在真实软件工程任务中的性能表现。

背景与挑战

背景概述

在软件工程与人工智能的交叉领域，自动化代码生成与程序修复已成为研究热点。swebench_verified_random_100_folders_c1_kimi_k2_5_20260409_234953数据集由研究团队于2026年4月创建，旨在评估语言模型在复杂软件工程任务中的表现。该数据集基于SWE-bench基准，精心筛选了100个来自真实代码仓库的软件工程问题，覆盖了缺陷修复、功能实现等核心场景。通过与Kimi、k2等先进模型的对话形式，数据集记录了300个高质量交互会话，每个样本包含完整的对话历史、任务描述及验证结果。该数据集为衡量模型在代码理解、上下文推理和调试能力方面提供了标准化测试平台，推动了AI辅助软件开发的实证研究，尤其在自动化补丁生成和代码修正领域产生了重要影响。

当前挑战

该数据集面临的核心挑战在于软件工程任务的复杂性与评估可靠性。在领域问题层面，自动化代码修复需要模型精准定位缺陷、理解项目上下文并生成语法语义正确的补丁，但现有模型常因对多文件依赖、跨函数调用等场景理解不足而失败，限制了实际工业应用。在数据集构建中，挑战集中在数据质量与多样性平衡：从SWE-bench随机抽取的100个任务需确保覆盖不同编程语言、框架及复杂度，但样本规模有限（300条）可能难以反映长尾分布；同时，对话数据依赖特定模型（如Kimi、k2）的生成，存在评估偏差风险，验证器的输出标准亦需人工校准以避免误判。此外，数据集的时效性（2026年）要求持续更新以适配代码库演化，维护成本较高。

常用场景

经典使用场景

在软件工程与自然语言处理交叉融合的前沿领域，swebench_verified_random_100_folders_c1_kimi_k2_5_20260409_234953数据集凭借其精心设计的对话结构与任务验证机制，成为评估和训练智能代码修复模型的核心资源。该数据集收录了涵盖多种编程语言和真实开源仓库的300轮人机协作对话，每条数据详细记录了智能体与用户围绕特定软件缺陷（如功能异常、性能瓶颈或安全漏洞）展开的交互过程，并附有经过严格校验的最终修复结果。研究者通常将其作为基准测试集，用以衡量大语言模型在多轮推理、上下文理解和精准代码修改方面的综合能力，尤其关注模型能否从冗长的对话中提炼关键信息并生成与验证器输出一致的修补方案。这一应用场景推动了面向软件维护领域的端到端对话式编程智能体的发展。

衍生相关工作

该数据集的发布催生了一系列具有启发性的后续研究。受其多轮对话与验证器联动的设计启发，有学者提出了 ext{SWE-bench}框架，将数据集中的交互协议泛化为通用的软件工程智能体评测标准，并衍生出针对不同编程语言和项目规模的扩展版本。另一分支工作侧重于对话压缩机制，探索如何在不丢失关键状态信息的前提下，将长达数十轮的交互精简为高效的提示模板，以便在计算资源受限的环境中部署代码修复模型。此外，代码修复与程序合成社区借鉴了数据集中的验证器反馈循环思想，开发出能够自主生成测试用例并根据执行结果迭代修复的具身智能体，其核心训练范式可直接引用该数据集的标注格式进行初始化。这些工作共同构建了一个以该数据集为基石、不断向外辐射的研究生态。

数据集最近研究