DCAgent2/swebench_verified_random_100_folders_coderforge_100000_opt100k__Qwen3_8B_20260475ea873b

Name: DCAgent2/swebench_verified_random_100_folders_coderforge_100000_opt100k__Qwen3_8B_20260475ea873b
Creator: DCAgent2
Published: 2026-04-04 03:54:23
License: 暂无描述

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_coderforge_100000_opt100k__Qwen3_8B_20260475ea873b

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 20182603 num_examples: 241 download_size: 17087142 dataset_size: 20182603 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

在软件工程自动化测试的前沿领域，该数据集通过精心设计的实验流程构建而成。其核心数据来源于对100个随机选取的软件项目文件夹进行自动化任务执行，利用先进的代码生成模型Qwen3-8B在特定配置下产生交互轨迹。每条记录均封装了一次完整的任务执行过程，包括模型与环境的对话序列、执行代理信息、任务标识以及关键的结果验证输出，确保了数据生成的可追溯性与实验的复现性。

特点

本数据集的一个显著特点是其高度结构化的多维度特征表征。它不仅包含了模型与系统交互的完整对话历史，还整合了任务执行元数据，如模型提供方、执行日期和具体任务描述。尤为重要的是，数据集收录了任务执行的结果状态与验证器输出，为评估代码生成模型的实际效能与故障模式提供了精细的观测窗口。这种设计使得数据既能支持端到端的性能分析，也能服务于对话决策过程的深度剖析。

使用方法

研究人员可利用此数据集开展代码生成与智能体评估的相关研究。典型的使用路径是加载训练分割中的数据，通过解析‘conversations’字段重现模型解决问题的交互序列，同时结合‘result’与‘verifier_output’字段对任务完成质量进行定量与定性分析。数据集的结构支持对特定模型、任务或执行片段进行筛选与聚合，便于进行对比实验、错误归因分析或作为训练数据以优化智能体的决策逻辑。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码生成与修复已成为推动软件开发效率革新的关键研究方向。数据集'swebench_verified_random_100_folders_coderforge_100000_opt100k__Qwen3_8B_20260475ea873b'由CoderForge等机构的研究团队构建，其核心旨在通过大规模、高质量的对话式交互数据，训练和评估大型语言模型在复杂代码任务中的实际表现。该数据集聚焦于解决软件工程中智能代理的决策与执行能力问题，通过模拟真实开发场景中的多轮对话与任务执行轨迹，为模型泛化性与可靠性研究提供了重要基准，对提升自动化编程工具的实用性与适应性具有显著影响力。

当前挑战

该数据集所针对的领域挑战在于，软件工程中的代码生成与修复任务往往涉及高度动态的上下文依赖、模糊的需求描述以及复杂的系统环境交互，要求模型不仅具备语法正确性，还需理解深层语义逻辑与工程约束。在构建过程中，研究人员面临数据质量控制的难题，包括如何从海量代码仓库中筛选代表性任务、确保对话轨迹的真实性与完整性，以及设计有效的验证机制来标注任务执行结果。此外，平衡数据多样性、规模与标注成本之间的冲突，亦是实现数据集科学价值与实用性的关键障碍。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，该数据集为评估大型语言模型在代码生成与修复任务中的性能提供了基准。通过模拟真实软件开发环境中的对话交互，它记录了模型与代理在特定任务下的多轮对话过程，包括代码修改、错误调试等场景。研究者利用这些结构化对话数据，能够系统分析模型在理解代码上下文、执行精确指令方面的能力，从而推动自动化编程工具的发展。

解决学术问题

该数据集主要针对代码智能领域中的模型泛化性与鲁棒性评估问题。传统代码数据集往往缺乏动态交互与验证环节，而此数据集通过整合任务执行结果与验证器输出，为研究模型在复杂、开放式编程任务中的实际表现提供了数据支撑。它有助于探索模型在代码理解、生成和调试中的局限性，并促进针对代码错误修复、自动化测试等学术挑战的解决方案设计。

衍生相关工作

围绕该数据集，学术界已衍生出多项关于代码生成模型评估与优化的研究。例如，基于对话交互的代码修复基准测试框架、针对多轮编程对话的强化学习训练方法，以及结合验证器输出的模型自我改进策略。这些工作进一步扩展了数据集的用途，推动了代码智能领域在评估协议、模型架构及训练范式方面的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集