five

DCAgent2/swebench_verified_random_100_folders_g1_top8_31600_32b_20260430_163909

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_g1_top8_31600_32b_20260430_163909
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含多轮对话记录的结构化数据集,用于分析和评估对话代理或模型在特定任务中的表现。数据集特征包括对话内容(conversations,包含角色和内容)、代理类型(agent)、模型名称(model)、模型提供商(model_provider)、日期(date)、任务类型(task)、剧集(episode)、运行ID(run_id)、试验名称(trial_name)、结果(result)和验证器输出(verifier_output)。数据仅包含训练分割(train),有300个示例,总大小约44.4 MB。数据集可能适用于自然语言处理、对话系统评估或任务完成度分析等应用场景。

This is a structured dataset containing multi-turn conversation records, designed for analyzing and evaluating the performance of dialogue agents or models on specific tasks. The dataset's features include conversation content (conversations, including roles and their respective utterances), agent type (agent), model name (model), model provider (model_provider), date (date), task type (task), episode, run ID (run_id), trial name (trial_name), result (result), and verifier output (verifier_output). The dataset only includes the training split (train), with 300 examples and a total size of approximately 44.4 MB. This dataset may be applicable to scenarios such as natural language processing, dialogue system evaluation, and task completion analysis.
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为swebench_verified_random_100_folders_g1_top8_31600_32b_20260430_163909,源自SWE-bench验证集,通过随机选取100个文件夹内的任务实例,并利用模型生成在任务中排名前8的轨迹数据,最终筛选出31600条高质量对话样本,结合32b参数规模的模型进行构建。数据集以JSON格式存储,每条记录包含对话历史、智能体类型、模型信息、时间戳、任务描述、运行标识及结果等字段,共计300条训练样本,文件大小约44MB。
特点
数据集的核心特点在于其聚焦于软件工程领域中的自动化问题解决场景,每个样本均包含完整的多轮对话记录(conversations),涵盖人类与智能体的交互过程。此外,数据集通过verifier_output字段提供了验证器输出,便于评估模型生成的解决方案质量。数据集的字段设计全面,覆盖任务描述(task)、运行ID(run_id)、模型提供方(model_provider)等关键信息,支持对模型行为进行细粒度分析与复现。
使用方法
使用该数据集时,可直接加载HuggingFace上的数据仓库,通过train-*文件获取全部训练样本。研究人员可将conversations字段作为输入-输出对,用于微调对话型AI模型或训练智能体在软件工程任务中的决策能力。同时,结合result和verifier_output字段,可对模型生成的解决方案进行自动化验证与评分,从而评估模型在真实代码修复场景中的表现。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_g1_top8_31600_32b_20260430_163909,创建于2026年4月30日,由匿名研究机构或团队构建,专注于软件工程领域中基于大型语言模型(LLM)的代码生成与验证任务。其核心研究问题在于如何利用LLM自动生成能够通过真实软件仓库(如SWE-bench验证集)测试的代码补丁,以推动自动化软件修复技术的发展。该数据集包含300条对话记录,每条涵盖多轮交互、模型输出及验证结果,为评估和微调LLM在复杂编程任务上的表现提供了标准化基准。作为SWE-bench生态的拓展,其影响力体现在:通过引入细粒度的任务分解(如随机文件夹选取、多模型组合)和验证器反馈,推动了代码智能领域从简单代码补全向端到端缺陷修复的范式转变。
当前挑战
数据集面临的核心挑战包括:1)领域问题层面,软件工程中的代码生成任务需处理跨文件依赖、隐式合约及动态环境配置等复杂上下文,现有LLM常因缺乏全局理解而生成语法正确但逻辑错误的补丁;2)构建过程中,从SWE-bench的真实仓库中随机筛选100个任务文件夹时,需确保任务难度分布均匀且避免数据泄露,同时融合8种顶尖模型的31600条轨迹(32B参数规模)并对其进行验证器标注,面临计算成本高昂、验证器误报率高以及多轮对话间状态一致性维护的难题。此外,数据集的300条样本规模较小,可能限制模型泛化能力,需通过迁移学习或数据增强来缓解。
常用场景
经典使用场景
在软件工程与人工智能的交汇领域,swebench_verified_random_100_folders_g1_top8_31600_32b_20260430_163909数据集为评估和优化代码生成与智能代理(agent)系统提供了宝贵的资源。该数据集精选了来自SWE-bench验证集的随机100个文件夹,包含300条高质量的对话记录,每条对话均记录了智能代理(如不同模型驱动的agent)在解决具体任务时的完整交互过程。其经典使用场景聚焦于训练和测试能够自主完成软件工程任务的智能体,例如基于自然语言描述自动定位代码缺陷、生成修复补丁或实现功能扩展。研究者可利用这些包含多轮对话、模型输出及验证结果的结构化数据,系统性地衡量不同模型在代码理解、推理与生成方面的能力表现。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。其一,研究者利用其对话结构构建了多代理协作框架(如SWE-agent变体),通过分析不同任务中代理的失败模式,提出了基于反馈循环的改进策略。其二,基于verifier_output字段,学界开发了自动化结果验证算法,用于自动判定代码修复的正确性,减少人工标注成本。其三,数据集中的对比实验启发了一系列关于模型规模与任务难度匹配度的实证研究,揭示了32B参数模型在特定软件工程任务中的优势与局限。这些衍生工作不仅深化了对代码生成模型能力的理解,还催生了如CodeBERT、StarCoder等后续模型的针对性优化,形成了从基准测试到模型迭代的良性学术生态。
数据集最近研究
最新研究方向
该数据集聚焦于软件工程领域中大语言模型在代码生成与自动修复任务上的评估与验证,通过结构化记录多轮对话、模型输出及验证器结果,为研究模型在真实编程场景中的推理能力、错误修正策略及鲁棒性提供量化基准。其设计呼应了当前AI辅助软件开发的热点——如AI编码助手在复杂仓库级任务中的可靠性挑战,以及通过自动验证器(verifier_output)对模型输出进行严格判准的评估范式。该数据集的发布有助于推动从单函数生成向多文件、跨上下文任务迁移的研究,并为探究模型自主规划与修复能力(如SWE-bench类基准)贡献标准化数据资源,对提升AI在软件工程中的实用价值具有关键意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作