glm-4.7-Superior-Reasoning-stage1

Hugging Face2026-02-18 更新2026-02-19 收录

下载链接：

https://huggingface.co/datasets/Jackrong/glm-4.7-Superior-Reasoning-stage1

下载链接

链接失效反馈

官方服务：

资源简介：

glm-4.7-Superior-Reasoning-stage1 是一个基于 Alibaba Superior-Reasoning 风格管道构建的 Stage1 推理蒸馏数据集，采用了更强的教师模型 GLM-4.7 进行高质量推理轨迹生成。该数据集主要关注数学领域，包含 1,192 条记录，采用低温度蒸馏（温度 0.6）方法生成。每条数据为 JSON 格式，包含对话内容、用户问题、助手推理回答、领域标签和元数据（训练阶段、采样温度、教师模型等）。适用于 Stage1 推理监督微调、数学思维链行为调优和教师模型交换消融研究。需要注意的是，这是蒸馏数据而非真实证明数据，推理风格继承教师模型偏好，且需遵守上游数据集的许可和使用限制。

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在推理蒸馏领域，glm-4.7-Superior-Reasoning-stage1数据集遵循了阿里巴巴Superior-Reasoning框架的阶段性构建思路，其核心在于采用低温度采样策略进行知识提炼。具体而言，该数据集以GLM-4.7作为教师模型，在数学领域生成高质量的推理轨迹，采样温度设定为0.6，并配合top_p值为0.95的采样方法，最终收集了1,192条记录。每条数据均以结构化JSON格式封装，包含了原始问题、带有思维链的模型输出以及相关的元数据，确保了数据在阶段性蒸馏流程中的一致性与可追溯性。

特点

该数据集的特点体现在其专注于数学推理任务的深度优化，通过替换为更强的GLM-4.7教师模型，显著提升了推理轨迹的逻辑严密性与解答准确性。数据格式统一且富含元信息，不仅明确标注了训练阶段和采样参数，还完整保留了单轮对话的交互结构，便于研究者分析模型在思维链生成过程中的行为模式。此外，数据集规模适中，总计约2,274万令牌，为模型微调提供了充足而精炼的语料，同时其合成性质也为探索不同教师模型在知识蒸馏中的影响提供了实验基础。

使用方法

针对该数据集的使用，主要面向阶段一的有监督微调，旨在增强模型在数学领域的思维链推理能力。研究者可直接利用其对话格式的数据进行模型训练，以学习教师模型所展现的推理模式；亦可用于对比实验，通过替换不同教师模型来评估蒸馏效果的变化。在实际应用中，需注意数据本身为蒸馏产物而非真实标注，因此更适合用于提升模型的推理风格与连贯性，同时应严格遵守上游数据源的许可协议，确保使用的合规性。

背景与挑战

背景概述

在人工智能推理能力快速发展的背景下，大规模语言模型在复杂数学推理任务上的表现成为研究焦点。glm-4.7-Superior-Reasoning-stage1数据集由研究团队基于阿里巴巴Superior-Reasoning框架构建，发布于2025年，旨在通过知识蒸馏技术提升模型的分步推理能力。该数据集以数学领域为核心，采用GLM-4.7作为教师模型生成高质量思维链数据，标志着推理蒸馏技术向更强大基座模型迁移的重要进展，为后续阶段的高效微调奠定了数据基础。

当前挑战

该数据集致力于解决数学领域复杂问题的分步推理挑战，其核心在于如何让模型学会模仿人类逻辑思维过程，生成连贯且正确的推理链条。在构建过程中，研究面临低温度采样下多样性受限的难题，需平衡推理轨迹的准确性与创造性；同时，依赖教师模型偏好可能导致数据风格单一，且上游源数据集的许可与使用约束亦增加了合规性风险。这些挑战共同指向了高质量推理数据合成与泛化能力之间的微妙权衡。

常用场景

经典使用场景

在数学推理领域，glm-4.7-Superior-Reasoning-stage1数据集被广泛应用于阶段一的有监督微调，旨在通过低温度蒸馏技术，将强大教师模型GLM-4.7的推理能力迁移至学生模型。该数据集专注于数学问题，其结构化对话格式包含人类提问与模型带有思维链的响应，为训练过程提供了高质量的推理轨迹范例，从而优化模型在复杂数学任务中的逐步推理表现。

衍生相关工作

该数据集衍生的经典工作紧密围绕Alibaba Superior-Reasoning提出的阶段性推理蒸馏范式展开。相关研究如《DASD: Deep Analyze Soon Deliver for Efficient Reinforced Reasoning》探索了高效强化推理方法，而《SuperiorReasoning: Towards Large-Scale Inference-Time Scaling for Long-CoT Reasoning》则致力于大规模推理时扩展技术。这些工作共同深化了对长链思维推理的缩放规律与蒸馏效率的理解。

数据集最近研究