five

DCAgent2/swebench_verified_random_100_folders_daVinci_Dev_32B_20260424_211638

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_daVinci_Dev_32B_20260424_211638
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个多轮对话数据集,包含对话内容(content)和角色(role),以及代理(agent)、模型(model)、模型提供商(model_provider)、日期(date)、任务(task)、回合(episode)、运行ID(run_id)、试验名称(trial_name)、结果(result)、验证器输出(verifier_output)等元数据。数据集用于训练或评估对话系统,共有298个训练样本。
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为swebench_verified_random_100_folders_daVinci_Dev_32B_20260424_211638,其构建基于SWE-bench验证框架,从大规模代码仓库中随机抽取100个文件夹作为任务源,并利用daVinci_Dev_32B模型生成对话交互。数据收集过程记录了完整的智能体执行轨迹,包含多轮对话内容、任务描述、运行标识符及最终结果,并通过验证器输出确保任务完成的准确性。最终形成298条样本,涵盖丰富的代码修复与工程挑战场景。
特点
数据集以对话形式呈现,每条样本包含角色与内容字段,模拟了人机协作的交互过程。其核心特点在于结合了代码工程任务的真实性与模型生成的高覆盖率,每项任务均关联具体的智能体、模型及提供商信息,便于溯源与复现。此外,数据集提供了任务、运行ID及试验名称等元数据,支持细粒度的性能分析与对比实验。
使用方法
使用者可通过Hugging Face数据集库加载训练分割,利用conversations字段中的多轮对话进行指令微调或模型行为分析。建议将agent、task及result列作为关键特征,用于训练代码生成与修复的智能体模型。对于强化学习场景,可结合verifier_output字段设计奖励机制,从而提升模型在复杂软件开发任务上的鲁棒性。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_daVinci_Dev_32B_20260424_211638,创建于2026年4月24日,由daVinci研究团队开发,依托于SWE-Bench基准框架。数据集聚焦于软件工程领域中的自动化代码修复任务,核心研究问题在于评估大型语言模型在多文件、复杂软件工程项目中生成正确补丁的能力。通过从已验证的SWE-Bench实例中随机抽取100个文件夹,并利用32B参数的开发模型生成交互数据,该数据集为研究智能体在真实世界代码仓库中的调试与修复行为提供了标准化评估基准,对推动代码智能与自动化运维领域的发展具有重要价值。
当前挑战
该数据集所解决的领域核心挑战在于,传统代码修复模型多局限于单文件或简单错误修复,难以应对跨文件、依赖复杂的实际软件项目。数据集构建过程中面临两大难点:一是需要确保所选实例源自SWE-Bench已验证样本,保证问题真实性和补丁正确性,这对筛选与验证流程的严谨性提出高要求;二是多轮智能体交互数据的收集需要模拟真实开发环境中的探索与迭代过程,导致数据规模受限(仅298条对话),可能影响模型泛化能力的充分训练与评估的统计显著性。
常用场景
经典使用场景
在软件工程与人工智能的交叉领域中,swebench_verified_random_100_folders_daVinci_Dev_32B_20260424_211638数据集为评估与训练代码生成及调试代理(Agent)提供了宝贵的资源。该数据集收录了298条由‘DaVinci_Dev_32B’模型生成的交互对话,每个样本包含完整的对话记录、任务描述、代理身份及验证结果。其最经典的使用场景在于构建与评测能够自主理解软件仓库结构、定位缺陷并生成修复补丁的智能体系统,研究者可利用其中的‘conversations’字段模拟代理的推理过程,借助‘verifier_output’字段验证修复方案的准确性,从而推动代码修复任务从静态规则向动态交互式学习的范式转变。
实际应用
在工业级软件开发中,该数据集为自动化代码审查助手和持续集成(CI)流水线中的智能修复工具提供了训练与测试基石。实际应用场景涵盖:当开发者提交包含缺陷的代码变更时,依据对话历史的上下文,模型可基于该数据集训练出的策略,自动导航至相关错误文件,生成补丁并提交验证反馈。此外,数据集中的多模型来源(由‘model’字段标识)允许企业针对自有模型进行微调,以适配特定的代码规范或技术栈,从而在版本控制、缺陷追溯与代码可维护性方面实现效率跃升。
衍生相关工作
围绕该数据集的艺术与创新,衍生出一系列具有代表性的研究工作。首先,基于其对话结构,研究者发展了‘交互式代码修复基座’,通过强化学习利用‘verifier_output’反馈优化代理的探索策略。其次,针对不同模型(如‘model’字段中的多种架构),涌现出跨模型知识蒸馏方法,旨在将大型模型(如DaVinci系列)的修复能力迁移至轻量级代理。此外,该数据集启发了‘行为克隆+环境监督’的混合训练范式,其中‘episode’和‘run_id’字段被用于细粒度时序分析,以揭示长尾Bug在多次迭代中的修复规律,进一步推动了代码智能领域在多轮交互建模与鲁棒性评估上的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作