ReasonLite-Dataset

Hugging Face2025-12-04 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/amd/ReasonLite-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们收集了来自Polaris和OpenMathReasoning的343K数学问题。使用GPT-OSS作为教师模型，在中高推理模式下生成了9.1M原始答案。然后通过多数投票产生伪标签，最终保留了6.1M样本。

提供机构：

AMD

创建时间：

2025-12-02

原始信息汇总

ReasonLite-Dataset 数据集概述

数据集基本信息

数据集名称: ReasonLite-Dataset
发布者: AMD
许可证: Apache-2.0
数据集地址: https://huggingface.co/datasets/amd/ReasonLite-Dataset

数据集背景与目的

该数据集是用于训练 ReasonLite 模型的高质量数学推理数据。ReasonLite 是一个超轻量级的数学推理模型，仅包含 0.6B 参数，通过高质量数据蒸馏，其性能可与规模大10倍以上的模型（如 Qwen3-8B）相媲美，在 AIME24 上达到 75.2 分，扩展了小模型的缩放定律。

数据集内容与规模

数据来源: 从 Polaris 和 OpenMathReasoning 收集了 343K 个数学问题。
数据生成: 使用 GPT-OSS 作为教师模型，在中度和高度推理模式下生成了 910 万条原始答案。
数据处理: 通过多数投票生成伪标签，最终保留了 610 万个样本。
数据集构成:
- 短链思维（Short CoT）数据: 包含 430 万个样本。
  - 查看地址: https://huggingface.co/datasets/amd/ReasonLite-Dataset/viewer/default/medium
- 长链思维（Long CoT）数据: 包含 180 万个样本。
  - 查看地址: https://huggingface.co/datasets/amd/ReasonLite-Dataset/viewer/default/high

关联模型

该数据集用于训练以下两个模型：

amd/ReasonLite-0.6B-Turbo: 使用短链思维（Short CoT）数据蒸馏，平衡性能与效率，AIME24 准确率为 57.1。
- 模型地址: https://huggingface.co/amd/ReasonLite-0.6B-Turbo
amd/ReasonLite-0.6B: 使用长链思维（Long CoT）数据蒸馏，追求高性能，AIME24 准确率为 75.2。
- 模型地址: https://huggingface.co/amd/ReasonLite-0.6B

相关资源

GitHub 项目地址: https://github.com/AMD-AGI/ReasonLite

搜集汇总

数据集介绍

构建方式

在数学推理模型的研究领域，数据质量是决定模型性能上限的关键因素。ReasonLite-Dataset的构建采用了严谨的知识蒸馏框架，其核心流程始于从Polaris和OpenMathReasoning等权威数学问题库中精心筛选出34.3万个基础问题。随后，利用GPT-OSS作为教师模型，在中等与高推理强度两种模式下，为这些问题生成了总计910万条原始推理链答案。为确保数据的纯净度与可靠性，构建者通过多数投票机制为这些答案生成了伪标签，并经过严格的质量过滤，最终保留了610万个高质量样本，形成了包含短链推理与长链推理两个子集的完整数据集。

特点

该数据集最显著的特征在于其通过两阶段蒸馏过程实现的卓越质量与规模平衡。其内容全面覆盖了短链思维（Short-CoT）与长链思维（Long-CoT）两种推理范式，分别包含430万和180万条样本，为模型训练提供了不同粒度的学习目标。数据集中的每一个样本都附有经过多数投票验证的伪标签，极大提升了监督信号的可靠性。尤为突出的是，基于此数据集训练的0.6B参数超轻量级模型，在AIME24等权威数学基准上达到了与十倍于其参数规模模型相媲美的性能，这深刻体现了数据本身所蕴含的高密度、高保真知识价值。

使用方法

对于致力于高效能轻量级推理模型开发的研究者而言，该数据集提供了清晰的使用路径。用户可以直接通过HuggingFace平台加载‘amd/ReasonLite-Dataset’，并根据训练目标选择‘medium’（短链推理）或‘high’（长链推理）配置进行访问。该数据集主要用于监督式微调训练，其两阶段结构天然支持渐进式知识蒸馏：可先利用短链推理数据快速提升模型基础推理能力，再引入长链推理数据以锤炼其解决复杂、多步问题的深度推理性能。开源项目同时提供了完整的训练脚本与合成流程，便于用户复现或在其基础上进行进一步的定制化研究与开发。

背景与挑战

背景概述

在人工智能领域，数学推理能力是衡量模型认知智能的关键指标，长期以来，高性能推理模型往往依赖庞大的参数量，导致计算资源消耗巨大，限制了其在边缘设备或资源受限环境中的部署。为应对这一挑战，AMD-AGI研究团队于2025年推出了ReasonLite数据集，旨在通过高质量数据蒸馏技术，构建一个参数量仅为0.6B的超轻量级数学推理模型。该数据集的核心研究问题聚焦于如何在极小模型规模下，实现与十倍参数量模型相媲美的数学问题解决性能，从而拓展小模型的缩放定律，为高效能、低功耗的推理模型发展开辟了新路径。

当前挑战

ReasonLite数据集致力于解决数学推理领域的核心挑战，即如何在模型参数极度压缩的情况下，依然保持高精度的复杂问题求解能力。传统方法中，小模型往往因容量有限而难以捕捉深层次的逻辑关系，导致在AMC、AIME等高级数学竞赛题目上表现欠佳。在数据集构建过程中，研究团队面临两大主要挑战：一是如何从Polaris和OpenMathReasoning等来源中筛选并整合34.3万道高质量的数学问题，确保数据多样性与难度均衡；二是利用GPT-OSS作为教师模型生成910万条原始答案后，需通过多数投票机制产生可靠的伪标签，并最终精炼出610万条高置信度样本，这一过程对数据清洗与质量控制的精度提出了极高要求。

常用场景

经典使用场景

在数学推理领域，轻量化模型的研究日益受到关注，ReasonLite数据集为此提供了关键支持。该数据集最经典的使用场景是作为训练超轻量级数学推理模型的核心数据源，通过两阶段知识蒸馏流程，将大规模教师模型生成的链式思维数据转化为高质量、结构化的训练样本。研究人员利用这些数据微调仅有0.6B参数的基础模型，使其在AMC、AIME等数学竞赛基准上达到与十倍规模模型相媲美的性能，从而验证数据蒸馏在提升小模型复杂问题解决能力方面的有效性。

解决学术问题

该数据集有效解决了小规模语言模型在数学推理任务中性能受限的学术难题。传统上，模型参数量与推理能力呈正相关，但ReasonLite通过精心构建的6.1M高质量样本，打破了这一缩放定律的约束，证明了通过数据质量优化而非单纯扩大模型规模，同样能显著提升数值计算、逻辑推导和多步骤问题求解的精度。其意义在于为资源受限环境下的高效推理模型开发提供了可复现的范式，推动了模型效率与性能平衡的前沿探索。

衍生相关工作

围绕ReasonLite数据集，已衍生出一系列专注于高效推理模型的经典研究工作。其两阶段蒸馏架构启发了后续如POLARIS、OpenMath-Nemotron等轻量级数学模型的改进设计，这些工作进一步探索了不同数据筛选策略、教师模型集成与损失函数优化对性能的影响。同时，该数据集的开源特性促进了社区对知识蒸馏理论、小模型泛化能力以及数学语义理解机制的深入分析，为构建更广泛领域的专用高效模型奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集