five

DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb

收藏
Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 20508662 num_examples: 236 download_size: 19375848 dataset_size: 20508662 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 字段名:对话列表(conversations),数据类型为列表,列表内元素包含如下子字段: - 子字段名:内容(content),数据类型:字符串 - 子字段名:角色(role),数据类型:字符串 - 字段名:AI智能体(AI Agent),数据类型:字符串 - 字段名:模型(model),数据类型:字符串 - 字段名:模型提供商(model_provider),数据类型:字符串 - 字段名:日期(date),数据类型:字符串 - 字段名:任务(task),数据类型:字符串 - 字段名:任务回合(episode),数据类型:字符串 - 字段名:运行ID(run_id),数据类型:字符串 - 字段名:试验名称(trial_name),数据类型:字符串 - 字段名:结果(result),数据类型:字符串 - 字段名:验证器输出(verifier_output),数据类型:字符串 数据集划分: - 划分名称:训练集(train),字节占用量:20508662,样本总数:236 下载总大小:19375848 数据集总大小:20508662 配置项: - 配置名称:默认配置(default),对应数据文件: - 划分:训练集(train),数据路径:data/train-*
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,自动化代码修复任务对模型性能评估提出了更高要求。该数据集基于SWE-bench框架,通过随机抽取100个代码仓库文件夹,并利用CoderForge平台在特定配置下生成。数据采集过程涉及多轮对话模拟,记录了智能体与模型在代码问题解决中的交互轨迹,确保了任务场景的真实性与多样性。每个样本均包含完整的对话历史、执行结果及验证输出,构建了一个结构化的评估基准。
特点
该数据集以细粒度的代码修复任务为核心,其突出特点在于每个样本均附带验证输出,为模型性能提供了可量化的评估依据。数据覆盖了多种代码仓库与问题类型,通过对话形式捕捉了问题解决的全过程,包括错误定位、修复尝试及最终结果。字段设计全面,涵盖了智能体类型、模型提供商、执行日期等元信息,支持多维度的分析与对比研究。
使用方法
研究人员可将该数据集应用于代码生成与修复模型的评估与训练。使用时应加载训练分割,利用对话历史模拟智能体与模型的交互,重点关注结果字段以判断任务成败。验证输出可用于自动评分或错误分析,而元信息如任务标识和运行ID则支持实验的可重复性与细粒度比较。该数据集适用于基准测试、模型微调及自动化软件工程方法的研究。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码修复与任务执行已成为前沿研究方向。数据集'swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb'应运而生,其构建旨在评估大型语言模型在真实软件开发环境中的实际效能。该数据集由CoderForge等研究团队于2024年创建,核心聚焦于通过对话交互形式,测试模型在代码生成、调试与验证任务中的综合表现,为提升智能编程助手的可靠性与泛化能力提供了关键基准。
当前挑战
该数据集致力于解决软件工程中自动化代码修复与任务执行的挑战,其难点在于如何精准模拟复杂多变的开发场景,并确保模型输出在功能与逻辑上的正确性。构建过程中,研究人员需克服数据采集的多样性难题,包括从开源项目中提取真实缺陷案例、设计涵盖多编程语言与框架的对话任务,以及建立严格的验证机制来保证结果的可信度与可复现性。
常用场景
经典使用场景
在软件工程与代码生成领域,该数据集通过模拟真实开发环境中的对话交互,为评估大型语言模型在代码修复与任务执行方面的能力提供了基准。其经典使用场景聚焦于自动化代码调试与优化,研究者利用数据集中的对话序列,训练模型理解复杂编程问题,并生成准确的代码修改方案,从而推动智能编程助手的发展。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,包括基于对话历史的代码修复模型优化、多智能体协作编程框架的开发,以及针对软件测试自动化的强化学习策略。这些工作不仅扩展了数据集的用途,还推动了代码生成与软件工程交叉领域的理论创新,为后续更复杂的智能编程系统提供了方法论参考。
数据集最近研究
最新研究方向
在软件工程与代码生成领域,swebench_verified_random_100_folders_coderforge_31600_opt100k__Qwen3_8B_2026033048fabcb数据集作为评估大型语言模型代码修复能力的关键资源,正推动前沿研究聚焦于自动化软件维护与智能调试技术。该数据集通过模拟真实开发环境中的代码问题与验证流程,促进了模型在复杂任务中的泛化性能分析,尤其在结合强化学习与多智能体协作框架方面,探索如何提升代码修复的准确性与效率。相关研究热点包括利用此类数据优化开源项目的持续集成流程,以及应对新兴编程范式下的安全漏洞检测挑战,其影响深远,为构建更可靠、自适应的AI辅助开发工具奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作