five

lichangh20/stacx-skyrl-swe-train-293

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lichangh20/stacx-skyrl-swe-train-293
下载链接
链接失效反馈
官方服务:
资源简介:
SkyRL SWE-Bench训练集(包含293个任务,其中有一个285任务的子集)是一个用于GRPO基线rollout的两文件SWE-Bench风格训练语料。原始训练集由SkyRL组装而成,子集则去除了与验证集重叠的8个实例。数据集格式为JSONL,每行一个任务,包含prompt(聊天模板输入)、metadata块(含instance_id)以及SWE-Bench验证字段。

The SkyRL SWE-Bench training set (293 tasks, with the 285-task val-filtered subset) is a two-file SWE-Bench-style training corpus used as the GRPO baseline rollout source. The original training set is assembled from SkyRL, and the subset removes the 8 instances overlapping with the validation set. The dataset format is JSONL, with one task per line, including a prompt (chat-template input), a metadata block (with instance_id), and the SWE-Bench verification fields.
提供机构:
lichangh20
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为stacx-skyrl-swe-train-293,源自SkyRL项目,专门为SWE-Bench训练任务设计。其构建方式基于GRPO强化学习基线,从SWE-Bench原始训练集中筛选出293个任务实例,以JSONL格式存储,每行包含一个完整任务。为保障验证集的纯洁性,进一步移除了与swe_gym_val_100重叠的8个实例,衍生出285个任务的子集(skyrl_293_minus_val100.jsonl),保留了与swe_gym_train_eval_100重叠的16个实例作为训练分布追踪器。这种分层过滤策略确保了数据集在强化学习训练中的有效性与评估的严谨性。
使用方法
数据集的使用通过HuggingFace CLI实现,用户可执行'huggingface-cli download lichangh20/stacx-skyrl-swe-train-293 --repo-type dataset --local-dir external/data/swe'命令下载。启动脚本e2e_grpo_kings.sh会优先寻找skyrl_293_minus_val100.jsonl文件,若缺失则自动从skyrl_293.jsonl中基于swe_gym_val_100.jsonl进行过滤。数据以JSONL格式逐行加载,每个实例可直接输入到基于ROCK沙盒与奖励函数的SWE-Bench验证流程中,适合作为GRPO强化学习训练的滚动源。
背景与挑战
背景概述
在大规模代码生成与自动程序修复领域,SWE-Bench基准测试已成为评估大语言模型解决真实世界软件工程任务能力的标准平台。为此,研究人员基于SkyRL框架构建了stacx-skyrl-swe-train-293数据集,该数据集由芝加哥大学等机构的研究人员于2024年创建,旨在为强化学习(尤其是GRPO算法)提供高质量的训练样本。数据集汇集了293个源自SWE-Bench的训练任务,每个任务包含结构化的prompt输入和详细的元数据,为模型学习代码仓库级别的故障定位与修复提供了丰富的监督信号。该数据集的发布显著推动了将强化学习应用于代码智能的研究,尤其是在通过试错策略提升模型代码修复能力方面,其影响力已扩展到多个后续工作,包括STaCX评估套件等。
当前挑战
该数据集所面临的挑战体现在多个层面。首先,从研究问题来看,其核心任务——基于SWE-Bench的代码修复——要求模型精准理解跨文件的代码依赖关系并生成语法与逻辑均正确的补丁,这对现有大语言模型的上下文理解与精确推理能力构成了严峻考验。其次,在数据集构建过程中,如何从原始SWE-Bench基准中筛选出适合GRPO训练且不与验证集重叠的子集是关键难题,为此研究人员精心设计了两个版本(293任务全集与285任务子集),以剔除对验证集造成泄露的8个实例。此外,保持训练集与评估集(如swe_gym_val_100)之间的独立性,同时确保标注数据的质量和任务难度梯度,也对数据清洗与迭代优化提出了高要求。
常用场景
经典使用场景
该数据集专为软件工程领域的代码修复任务而设计,其经典使用场景聚焦于基于强化学习的代码补丁生成与验证。具体而言,研究者可借助数据集中的SWE-Bench风格任务实例,构建从问题描述到代码补丁的端到端生成模型,并通过集成奖励函数与沙箱验证环境,对模型生成的补丁进行自动化评估与迭代优化。数据集提供的双文件结构——包含293个原始任务与285个去重任务——为训练过程中的验证集隔离提供了便利,尤其适用于GRPO等强化学习算法的基线训练与消融分析。
解决学术问题
该数据集有效解决了软件自动修复领域长期面临的训练数据稀缺与验证标准不统一两大核心难题。通过整合SkyRL与SWE-Bench的精选任务,它为研究者提供了一个规模适中、标注规范且具备明确验证指标的标准化训练基准。更重要的是,数据集通过显式标记与swe_gym验证集的交叉实例,避免了训练数据与评估数据之间的泄露风险,从而提升了学术实验的可复现性与结论可靠性。这一设计显著推动了自动化代码修复研究中强化学习方法的可控性与可比较性。
实际应用
在实际工程应用中,该数据集服务于大语言模型在代码仓库级缺陷修复场景下的微调与部署。开发者可利用其预构建的提示模板与元数据信息,训练模型在真实项目环境中定位并修复软件缺陷,例如自动化补丁生成、持续集成中的回归缺陷修复等。数据集中的实例均来源于实际开源库,确保了训练出的模型具备较强的泛化能力。此外,其轻量化的285任务子集特别适合资源受限的团队进行快速原型验证,降低了将强化学习应用于代码修复的技术门槛。
数据集最近研究
最新研究方向
该数据集聚焦于强化学习驱动的代码修复与软件工程基准测试(SWE-Bench)的前沿融合。通过整合SkyRL与SWE-Gym的293个任务实例,它专为GRPO(群体相对策略优化)训练范式设计,涉及验证集去污染(去除与swe_gym_val_100重叠的8个实例)以保障评估的独立性。这一方向紧密契合近期大语言模型在自动化程序修复领域的突破性应用,尤其是结合深度强化学习从反馈中迭代优化代码生成策略的热点趋势。数据集通过精心筛选的训练-评估分离机制,为可靠衡量模型在真实软件补丁任务上的泛化能力提供了基石,推动了代码智能体从静态微调向动态策略学习的范式演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作