five

Skywork-OR1-RL-Data

收藏
Hugging Face2025-04-15 更新2025-04-17 收录
下载链接:
https://huggingface.co/datasets/Skywork/Skywork-OR1-RL-Data
下载链接
链接失效反馈
官方服务:
资源简介:
Skywork-OR1-RL-Data是一个包含可验证的、具有挑战性的、多样化的数学问题(105K)和编程问题(14K)的数据集。该数据集用于训练Skywork-OR1模型系列,这是一系列通过大规模基于规则的强化学习训练的强大的数学和代码推理模型。该系列包括两个通用推理模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview,以及一个专门用于数学的模型Skywork-OR1-Math-7B。
提供机构:
Skywork
创建时间:
2025-04-12
搜集汇总
数据集介绍
main_image_url
构建方式
在数学与编程推理领域,Skywork-OR1-RL-Data数据集通过系统化整合多个开源数据集构建而成,包括NuminaMath-1.5、DeepScaleR-Preview-Dataset等权威来源。构建过程中采用模型感知难度估计算法,针对不同规模的模型(如1.5B/7B/32B)进行问题难度分级,并严格过滤难度值为0或16的极端样本。通过人工与LLM双重质量评估机制,确保数据纯净度与训练有效性,同时移除AIME24/25及LiveCodeBench中的相似问题以避免数据污染。
特点
该数据集以数学问题(105K)和编程题目(14K)为核心,呈现出显著的验证性、挑战性与多样性特征。其独特价值体现在细粒度的难度标注体系,每个问题均关联三种不同规模模型的难度评分(0-16分),为强化学习训练提供精准的样本筛选依据。数据字段设计科学完备,包含问题来源、多轮对话式提示、能力分类、奖励模型真值及扩展信息等结构化特征,支持复杂的模型训练场景。
使用方法
作为Skywork-OR1系列模型的训练基底,该数据集需配合官方提供的训练配方使用。用户可通过HuggingFace平台直接加载数据,按数学(math)与编程(code)两个独立分片进行调用。建议优先选用最新版本数据,或确保使用特定commit后的修正版本以避免早期难度标注错误。对于特定模型训练,可依据extra_info中的model_difficulty字段进行难度过滤,构建适配目标模型能力的训练子集。
背景与挑战
背景概述
Skywork-OR1-RL-Data是由SkyworkAI团队于2025年4月发布的一个专注于数学和编程问题解决的强化学习数据集。该数据集包含105,055个数学问题和14,057个编程问题,旨在训练Skywork-OR1系列模型,提升其在数学推理和代码生成任务中的表现。数据集的设计基于多个开源数据集,如NuminaMath-1.5、DeepScaleR-Preview-Dataset等,并经过严格的筛选和去重处理,以确保数据的多样性和高质量。Skywork-OR1系列模型在多个基准测试中表现优异,尤其在数学推理任务中显著优于同类规模模型,推动了人工智能在复杂推理任务中的发展。
当前挑战
构建Skywork-OR1-RL-Data面临的主要挑战包括:1) 数据多样性与质量的平衡,需从多个来源筛选和整合数据,同时避免数据重复或污染;2) 模型感知的难度评估,需针对不同模型变体(如DeepSeek-R1-Distill-Qwen系列)动态调整问题难度,确保训练数据的有效性;3) 强化学习训练中的稳定性问题,需设计合理的奖励模型和训练策略,以优化模型在复杂任务中的表现。这些挑战的解决不仅提升了数据集的实用性,也为后续研究提供了重要参考。
常用场景
经典使用场景
在数学推理和编程问题求解领域,Skywork-OR1-RL-Data数据集通过其精心筛选的数学问题和编程题目,为强化学习模型的训练提供了高质量的数据支持。该数据集特别适用于训练和评估模型在复杂数学推理和代码生成任务中的表现,如解决AIME竞赛题目和LeetCode编程挑战。
衍生相关工作
Skywork-OR1-RL-Data数据集衍生了多个经典工作,包括Skywork-OR1系列模型,如Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview。这些模型在数学和编程任务中表现出色,进一步推动了强化学习在复杂推理任务中的应用和发展。
数据集最近研究
最新研究方向
在数学推理与代码生成领域,Skywork-OR1-RL-Data数据集凭借其精心筛选的数学问题(10.5万条)和编程题目(1.4万条),正推动着强化学习在复杂推理任务中的应用边界。该数据集通过模型感知的难度分级机制,针对不同规模的DeepSeek-R1蒸馏模型进行差异化训练,有效避免了简单样本的过拟合与超难样本的无效训练。其最新衍生的Skywork-OR1-Math-7B模型在AIME数学竞赛基准上取得突破性表现,标志着基于规则强化学习的专业领域微调策略已成为当前研究热点。数据集构建过程中采用的跨模型难度评估体系与双重质量验证机制(人工+LLM评判),为提升大语言模型在结构化问题求解中的泛化能力提供了重要范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作