five

zinnety

收藏
Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/zoelaenskii/zinnety
下载链接
链接失效反馈
官方服务:
资源简介:
Superior-Reasoning-SFT-gpt-oss-120b 是一个高质量的、开源的、包含43.5万个样本的数据集,旨在普及高性能长链思维(Long-CoT)模型的训练。该数据集通过分布对齐序列蒸馏(Distribution-Aligned Sequence Distillation)流程构建,解决了当前推理蒸馏中的分布不匹配和暴露偏差问题,使得小型密集模型(如DASD-4B-Thinking)能够在同类开源模型中达到最先进的性能。数据集覆盖数学、代码生成、科学推理和指令跟随等多个领域,所有数据均从gpt-oss-120b的高推理模式中蒸馏得到,确保了高质量的推理轨迹。数据集分为两个阶段:低温训练(Stage 1,约10.5万样本)和高温训练(Stage 2,约33万样本),并推荐采用分阶段训练方法以获得最佳效果。数据集采用结构化JSON格式,每个样本包含uuid、input、output、domain和meta等字段。数据集在多个基准测试中表现出色,并采用CC BY 4.0许可发布。
创建时间:
2026-02-12
原始信息汇总

Superior-Reasoning-SFT-gpt-oss-120b 数据集概述

基本信息

  • 数据集名称: Superior-Reasoning-SFT-gpt-oss-120b
  • 托管地址: https://huggingface.co/datasets/zoelaenskii/zinnety
  • 许可证: CC BY 4.0
  • 任务类别: 文本生成
  • 主要语言: 英语
  • 数据规模: 435K 样本
  • 核心标签: 代码、数学、科学问答、指令遵循、推理、思维、gpt-oss-120b、蒸馏

数据集配置

数据集包含两个独立的配置,对应两个训练阶段。

配置一:stage1

  • 配置文件: Superior-Reasoning-SFT-gpt-oss-120b-stage1-train-data.jsonl
  • 样本数量: 约 105K
  • 数据特征:
    • uuid (字符串): 样本唯一标识符。
    • input (字符串): 模型输入提示。
    • output (字符串): 教师模型生成的响应。
    • domain (字符串): 任务领域。
    • meta (字符串): 元数据字典。

配置二:stage2

  • 配置文件: Superior-Reasoning-SFT-gpt-oss-120b-stage2-train-data.jsonl
  • 样本数量: 约 330K
  • 数据特征: 与 stage1 相同。

核心特点

  • 极高的数据效率: 仅包含 43.5 万总样本,规模比同类数据集小一个数量级,但能产生最先进的结果。
  • 多样化的领域覆盖: 涵盖数学、代码生成、科学推理和指令遵循。
  • 高质量的教师来源: 所有数据均使用 gpt-oss-120b 模型的高推理模式蒸馏得到,确保了高质量的推理轨迹。
  • 基于原则的构建方法: 采用分布对齐序列蒸馏流程构建,解决了当前推理蒸馏中的分布不匹配暴露偏差等关键限制。

数据来源

使用以下公开可用数据集作为问题来源:

  • nvidia/AceReason-1.1-SFT
  • nvidia/OpenCodeReasoning
  • nvidia/OpenScienceReasoning-2
  • a-m-team/AM-DeepSeek-R1-Distilled-1.4M

数据格式

每个样本均为 JSON 格式,包含以下字段:

  • uuid: 唯一标识符。
  • input: 输入提示。
  • output: 教师生成的响应。
  • domain: 任务领域(如 "math"、"code"、"science")。
  • meta: 元数据字典,包含:
    • training_stage: 样本所属训练阶段("stage1" 或 "stage2")。
    • sampling_temperature: 教师模型生成输出时使用的温度。
    • teacher_model: 生成响应的教师模型标识。
    • logprob_filename: 在 Superior-Reasoning-SFT-gpt-oss-120b-Logprob 数据集中对应的对数概率文件名。

训练建议

  • 分阶段训练配方: 建议先在 Stage 1 数据上训练以获得稳定性,然后在 Stage 2 数据上继续训练以获得多样性
  • 训练参数示例: 在 Stage 1 和 Stage 2 中,使用初始学习率 5e-5,全局批次大小 64,训练 6 个周期。Stage 2 从 Stage 1 的最终检查点继续训练。

已验证的有效性

使用该数据集训练的模型在其规模类别中实现了最先进的性能。

4B 稠密模型性能

模型 / 设置 AIME24 AIME25 LiveCodeBench v5 LiveCodeBench v6 GPQA-D
Qwen3-4B-Instruct-2507 (基线) - 47.4 - 35.1 62.5
+ 低温训练 (stage 1) 84.2 74.0 56.6 50.6 67.7
+ 高温训练 (stage 2) 87.7 83.0 68.4 67.2 67.6

30B MoE 模型性能

仅使用 Stage 1 数据训练的 DASD-30B-A3B-Thinking-Preview 模型展示了极高的数据效率。

模型 AIME25 LiveCodeBench v6 GPQA-D 平均分
gpt-oss-20b 91.7 61.0 71.5 74.7
Qwen3-30B-A3B-Thinking-2507 85.0 66.0 73.4 74.8
NVIDIA-Nemotron-3-Nano-30B-A3B 89.1 68.3 73.0 76.8
DASD-30B-A3B-Thinking-Preview (Ours) 86.7 72.8 72.3 77.3

相关资源

引用

如果此工作对您的研究或应用有帮助,请引用相关技术报告。

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能推理模型蒸馏领域,数据质量与构建方法直接决定了模型性能的上限。该数据集采用了名为“分布对齐序列蒸馏”的创新性构建流程,旨在解决传统蒸馏方法中存在的分布不匹配和曝光偏差等核心问题。其构建过程并非依赖随机采样或启发式过滤,而是通过温度调度学习、发散感知采样与混合策略蒸馏三种互补机制,从强大的教师模型gpt-oss-120b中系统性地提取高质量推理轨迹。具体而言,数据集被划分为两个阶段:第一阶段包含约10.5万个低温度样本,侧重于学习的稳定性;第二阶段包含约33万个高温度样本,旨在增强推理的多样性与探索性。所有样本均经过严格的质量控制,剔除了截断输出与重复内容,确保了数据的高保真度。
特点
该数据集在长链思维推理任务中展现出卓越的特性。其最显著的特征在于极致的样本效率,仅包含43.5万个样本,规模远小于同类数据集,却能够支撑小型密集模型达到同规模开源模型的顶尖性能。数据覆盖领域广泛,囊括了数学、代码生成、科学推理与指令遵循等多个关键认知维度,确保了模型泛化能力的广度。每个样本均附有详尽的元数据,如所属训练阶段、采样温度及教师模型信息,为研究数据生成与模型学习动态之间的关系提供了宝贵的可追溯性。这些精心设计的特性共同构成了一个高质量、高效率的推理知识库。
使用方法
为充分发挥该数据集的潜力,建议采用分阶段的训练方案。首先,使用第一阶段数据进行训练,该阶段数据温度较低,有助于模型建立稳定、可靠的推理基础。随后,在完成第一阶段训练的基础上,继续使用温度更高、多样性更丰富的第二阶段数据进行训练,以进一步提升模型的探索能力和泛化性能。实践表明,遵循此分阶段方案训练的模型,在AIME、LiveCodeBench等多项推理基准测试中均取得了显著的性能提升。具体的训练超参数配置,如学习率与批次大小,可参考项目开源仓库中提供的详细配置文件。
背景与挑战
背景概述
在大型语言模型追求卓越推理能力的学术浪潮中,阿里巴巴云于2026年发布了Superior-Reasoning-SFT-gpt-oss-120b数据集,其核心研究聚焦于如何高效地将大规模教师模型(如gpt-oss-120b)的复杂长链思维(Long-CoT)能力蒸馏至参数量更小的密集模型。该数据集包含43.5万条高质量样本,覆盖数学、代码生成、科学问答与指令遵循等多个领域,旨在通过其创新的分布对齐序列蒸馏(DASD)方法论,解决传统蒸馏中普遍存在的分布失配与曝光偏差问题,从而在有限数据规模下实现模型性能的突破,推动了高效、开源推理模型的发展。
当前挑战
该数据集致力于解决复杂推理任务蒸馏的核心挑战,即如何在小规模参数模型中复现大模型深邃、多步的推理能力。传统方法常因师生模型输出分布的不匹配,导致蒸馏效率低下与泛化性能不足。在构建过程中,研究团队面临两大具体挑战:其一,设计一种能够精准量化并对齐序列级概率分布的采样机制,以筛选出最具教学价值的推理轨迹;其二,需构建一个融合温度调度学习、混合策略蒸馏的协同训练框架,在确保生成多样性的同时维持学习稳定性,从而在有限数据下实现推理保真度的最大化。
常用场景
经典使用场景
在大型语言模型推理能力蒸馏的研究领域中,Superior-Reasoning-SFT-gpt-oss-120b数据集为训练高性能长链思维模型提供了核心数据支撑。该数据集通过分布对齐序列蒸馏流程构建,其经典应用场景在于指导中小型密集模型或混合专家模型进行分阶段监督微调。研究人员通常遵循先低温度后高温度的训练范式,利用数据集中的数学、代码、科学问答等多领域高质量推理轨迹,有效提升模型在复杂推理任务中的分步思考与问题解决能力,实现模型规模的轻量化与性能的卓越化。
实际应用
在实际部署层面,该数据集支撑了如DASD-4B-Thinking等高性能开源模型的开发,这些模型可直接应用于智能教育辅导、自动化代码审查、科学研究辅助等场景。例如,在编程教育平台中,模型能逐步解析复杂算法问题并提供解释;在科研分析中,可协助研究人员进行逻辑严谨的科学推理。数据集的高数据效率特性使得企业或研究机构能够以较低的计算成本,训练出在AIME、LiveCodeBench等专业基准上达到先进水平的专用模型,实现了前沿研究成果向产业实践的快速转化。
衍生相关工作
围绕该数据集衍生的经典工作主要包括其技术报告所提出的完整分布对齐序列蒸馏方法论,以及据此训练的DASD系列模型。相关研究进一步探讨了推理轨迹的可追溯性,如在《Where Did This Sentence Come From?》工作中深入分析了蒸馏过程中句子级来源的归因问题。这些工作共同构成了一个从数据构建、训练策略到模型评估与可解释性分析的完整研究体系,为后续在高效模型蒸馏、鲁棒性提升以及多模态推理扩展等方面的研究提供了坚实的理论基础与实验框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作