DCAgent2/swebench_verified_random_100_folders_syh_rl_multifile_40_32B_20260501_231849
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/swebench_verified_random_100_folders_syh_rl_multifile_40_32B_20260501_231849
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 44990815
num_examples: 300
download_size: 29540985
dataset_size: 44990815
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集命名为swebench_verified_random_100_folders_syh_rl_multifile_40_32B_20260501_231849,源自SWE-bench验证集,通过随机抽取100个任务文件夹构建而成。数据集采用强化学习框架,结合多文件编辑场景,利用32B参数规模的模型生成对话式智能体轨迹。每条样本包含完整的多轮对话、智能体身份、模型信息、任务描述及执行结果,并经由验证器输出结果进行质量筛选,最终保留300条高质量训练样本。
特点
数据集的核心特点在于其对话式结构与多维元数据标注的深度融合。每一条数据均记录从任务输入到智能体响应的完整交互过程,角色字段清晰区分用户与助手的对话轮次。同时,涵盖模型提供商、运行标识符、试运行名称等丰富标签,支持对模型行为、任务类型和实验配置的细粒度分析。这种多维度标注特性使其特别适用于训练和评估复杂软件工程场景下的多轮对话智能体。
使用方法
该数据集可直接用于监督微调或强化学习训练,使用方法简洁高效。用户可通过HuggingFace Datasets库加载默认配置,自动获取train分片中的全部300条样例。每条样例的conversations字段包含content和role两个子字段,便于直接适配对话模型的标准训练格式。此外,agent、model、task等元数据字段可用于过滤或分组,实现针对特定智能体或任务类别的专项训练与评估。
背景与挑战
背景概述
该数据集名为swebench_verified_random_100_folders_syh_rl_multifile_40_32B_20260501_231849,由学术界或工业界研究团队于2026年5月创建,聚焦于多文件协同编辑场景下的大规模语言模型强化学习训练。其核心研究问题在于探索如何通过合理编排长上下文多文件任务、结合验证器反馈,提升32B参数级别模型在复杂软件工程问题上的决策能力。作为SWE-bench评测体系的重要衍生资源,该数据集为多步骤、多文件编辑的自动化评估提供了标准化训练语料,推动了代码生成与软件修复领域的实证研究发展。
当前挑战
该数据集面临的核心挑战来自多文件编辑的领域复杂性:模型需同时理解跨文件的代码依赖关系与修改边界,并在缺乏显式程序结构标注时保持语义一致性。构建过程中,任务生成需平衡随机采样的代表性(100个文件夹)与验证器输出的准确性,防止因数据噪声导致模型对奖励信号的误判。此外,多轮对话中'agent'与'verifier_output'字段的标注质量直接影响强化学习信号的可靠性,而300条训练样本在高维动作空间下易引发稀疏奖励与策略过拟合问题,对数据扩充方法与验证器设计提出严峻考验。
常用场景
经典使用场景
在软件工程与人工智能的交叉领域中,该数据集为评估与训练代码生成与修复模型提供了高度仿真的实验环境。其核心特色在于包含多轮编程对话,每条样本均从真实的代码仓库中提取,模拟了开发者面对复杂软件任务时的交互式推理过程。经典使用方式是将其作为强化学习或监督微调的基准,要求模型在给定的多文件上下文中生成能够通过单元测试的补丁,从而衡量其解决现实世界软件缺陷的能力。
解决学术问题
该数据集直面当前大语言模型在代码智能领域面临的泛化性不足与虚假相关性泛滥等核心困境。传统基准多采用单文件或孤立代码片段,难以反应现代软件工程中跨文件依赖的复杂性。通过引入多文件编辑与验证器输出作为反馈信号,它为解决‘代码修复与重构中的因果推理’这一开放难题提供了可复现的评测平台,推动了从模式匹配向真正程序理解的范式转变。
衍生相关工作
该数据集启发了多项关于‘基于验证器的强化学习’与‘多轮对话代理’的前沿工作。研究者基于其结构设计了新的奖励塑造策略,使模型从静态的代码生成转向动态的调试与迭代。此外,其多文件编辑特性催生了针对跨模块依赖建模的图神经网络架构,以及与检索增强生成结合的混合系统,这些衍生工作共同丰富了代码智能领域的方法论体系。
以上内容由遇见数据集搜集并总结生成



