eval-swebench-verified-random-100-foldersrl40GPU_base_32b__ctx32k_non_it_16x_eval_

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/DCAgent/eval-swebench-verified-random-100-folders__rl__40GPU_base_32b__ctx32k_non_it_16x_eval_

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多轮对话数据，主要用于训练和评估对话系统。数据集包含以下字段：'conversations'（包含'content'和'role'两个字符串字段的列表）、'agent'、'model'、'model_provider'、'date'、'task'、'episode'、'run_id'、'trial_name'、'result'、'verifier_output'和'trace_source'，所有字段均为字符串类型。数据集分为一个'train'训练集，包含1,559个样本，总大小为152,808,549字节，下载大小为38,204,694字节。数据文件路径为'data/train-*'。

创建时间：

2026-04-02

原始信息汇总

数据集概述

基本信息

数据集名称: eval-swebench-verified-random-100-folders__rl__40GPU_base_32b__ctx32k_non_it_16x_eval_
来源地址: https://huggingface.co/datasets/DCAgent/eval-swebench-verified-random-100-folders__rl__40GPU_base_32b__ctx32k_non_it_16x_eval_
下载大小: 38,204,694 字节
数据集大小: 152,808,549 字节

数据结构

特征字段

conversations: 列表类型，包含 content (字符串) 和 role (字符串) 两个子字段。
agent: 字符串类型。
model: 字符串类型。
model_provider: 字符串类型。
date: 字符串类型。
task: 字符串类型。
episode: 字符串类型。
run_id: 字符串类型。
trial_name: 字符串类型。
result: 字符串类型。
verifier_output: 字符串类型。
trace_source: 字符串类型。

数据划分

划分名称: train
样本数量: 1559
数据大小: 152,808,549 字节

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码评估是提升开发效率的关键环节。该数据集通过系统化采样与验证流程构建，从SWE-bench基准中随机选取100个代码仓库，并采用强化学习代理在特定计算环境下执行任务。数据收集过程记录了代理与环境的交互对话、任务执行结果及验证输出，确保了评估轨迹的完整性与可追溯性。每个样本均包含任务描述、模型响应、执行状态及验证信息，形成了结构化的多维度评估记录。

特点

该数据集的核心特征在于其严谨的验证机制与丰富的元数据标注。所有任务执行结果均经过验证流程确认，确保了评估结果的可靠性。数据集不仅包含模型与环境的对话历史，还整合了代理类型、模型提供商、任务标识及运行轨迹来源等详细信息，支持对自动化代码修复过程的深入分析。其多字段结构便于研究者从模型性能、任务复杂度和执行策略等多个角度进行细粒度探索。

使用方法

研究人员可利用该数据集进行代码生成模型的性能评估与比较分析。通过解析对话记录与执行结果，可以量化模型在真实代码修复任务中的有效性。数据集中的验证输出字段为结果准确性提供了直接依据，而丰富的元数据支持对任务难度、模型适应性及环境交互模式的交叉研究。建议使用标准数据处理工具加载数据，并依据任务类型与结果字段构建定制化评估指标，以推动自动化软件工程工具的优化。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码生成与修复已成为核心研究方向。eval-swebench-verified-random-100-folders__rl__40GPU_base_32b__ctx32k_non_it_16x_eval_数据集应运而生，旨在评估大型语言模型在真实软件仓库环境中执行复杂编程任务的能力。该数据集由研究团队通过强化学习框架构建，聚焦于模型在给定上下文下解决具体编程问题的效能验证，其设计反映了当前追求更高代码智能体泛化性与可靠性的学术趋势。

当前挑战

该数据集致力于应对软件工程中自动化任务执行的评估挑战，特别是如何在多样化、动态的代码库环境中准确衡量模型的实用性与鲁棒性。构建过程中的主要困难在于确保任务实例的真实性与复杂性，同时维持数据集的规模与标注一致性；此外，验证环节需处理代码执行轨迹的多样输出，并建立可靠的结果比对机制，以避免评估偏差。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，eval-swebench-verified-random-100-folders数据集为评估大型语言模型在代码修复与任务执行能力提供了标准化基准。其经典使用场景聚焦于模拟真实软件开发环境，通过构建包含对话历史、任务描述与执行结果的交互轨迹，系统测试模型在复杂代码库中理解问题、生成补丁并验证解决方案的端到端性能。这一场景不仅强化了模型对软件上下文的推理能力，还推动了自动化编程助手在迭代调试与维护任务中的实用性探索。

解决学术问题

该数据集直接应对了当前智能编程研究中模型泛化性不足与评估体系碎片化的核心挑战。通过提供经过验证的随机任务样本，它解决了如何量化模型在多样化代码库中的实际效能问题，为比较不同模型架构与训练策略提供了统一尺度。其意义在于将软件工程任务转化为可衡量的机器学习问题，促进了代码生成领域从基准测试到真实场景应用的范式转移，对提升AI辅助编程的可靠性与可扩展性产生了深远影响。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在增强型代码代理架构与多模态评估框架的创新上。研究者基于其任务轨迹开发了分层注意力机制以处理长上下文代码片段，并设计了混合验证策略来平衡静态分析与动态执行。此外，该数据集催生了针对代码编辑序列预测的强化学习模型，以及结合形式化方法的可信代码生成研究，这些工作共同推动了自动化软件工程向更稳健、可解释的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集