math_distill

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/rasbt/math_distill

下载链接

链接失效反馈

官方服务：

资源简介：

MATH Distill 数据集是一个用于文本生成和问答任务的开源数据集，专门设计用于从大型语言模型（DeepSeek R1 和 Qwen3-235B-A22B）中提取知识以用于教育目的。数据集包含数学问题及其对应的答案，以及由模型生成的推理过程和最终答案。数据来源包括两部分：一是来自 HuggingFaceH4/MATH-500 的 500 个问题，二是来自 qwedsacf/competition_math 的 12,000 个不与 MATH-500 重叠的问题。数据集提供了多个配置，每个配置包含详细的记录数、平均令牌长度和模型准确率统计。每个样本包含四个字段：问题陈述（problem）、真实答案（gtruth_answer）、模型生成的推理过程（message_thinking）和最终答案（message_content）。该数据集适用于训练语言模型，尤其是用于知识蒸馏任务。

创建时间：

2026-03-01

原始信息汇总

MATH Distill 数据集概述

数据集基本信息

数据集名称: MATH Distill
许可证: Apache 2.0
任务类别: 文本生成、问答
语言: 英语
数据集地址: https://huggingface.co/datasets/rasbt/math_distill

数据集构成

该数据集包含由 DeepSeek R1 和 Qwen3-235B-A22B 为数学问题生成的蒸馏数据。

数据来源

MATH-500 数据集: 包含 500 个数学问题。
MATH 数据集: 包含 12,000 个数学问题，与 MATH-500 不重叠。

配置与文件

数据集包含以下配置，每个配置对应一个数据文件：

math500: 对应文件 data/deepseek-r1-math500.json
qwen3_235b_a22b_math500: 对应文件 data/qwen3-235B-A22B-math500.json
math_train: 对应文件 data/deepseek-r1-math-train.json
math_train_4000: 对应文件 data/deepseek-r1-math-train_4000.json
qwen3_235b_a22b_math_train: 对应文件 data/qwen3-235b-a22b-math-train.json

数据字段

每个数据样本包含以下字段：

problem: 数学问题描述
gtruth_answer: 简短的标准答案
message_thinking: 大语言模型生成的思维链
message_content: 大语言模型生成的最终答案

message_thinking 和 message_content 字段可以组合成完整答案，格式示例如下：

<think>I need to find the largest number of...</think>

The function is continuous...

数据集统计信息

`data/deepseek-r1-math500.json`

记录数: 500
DeepSeek R1 答案准确率: 91.2% (456/500)
字段平均令牌数:
- gtruth_answer: 12.27
- message_content: 333.79
- message_thinking: 2304.87
- problem: 78.94

`data/qwen3-235B-A22B-math500.json`

记录数: 500
Qwen3-235B-A22B 答案准确率: 92.4% (462/500)
字段平均令牌数:
- gtruth_answer: 12.27
- message_content: 611.07
- message_thinking: 4662.99
- problem: 78.94

`data/deepseek-r1-math-train.json`

记录数: 12000
DeepSeek R1 答案准确率: 90.6% (10871/12000)
字段平均令牌数:
- gtruth_answer: 12.49
- message_content: 350.20
- message_thinking: 2495.82
- problem: 80.80

`data/deepseek-r1-math-train_4000.json`

记录数: 9550
DeepSeek R1 答案准确率: 93.0% (8878/9550)
字段平均令牌数:
- gtruth_answer: 12.39
- message_content: 292.00
- message_thinking: 1303.78
- problem: 67.00

`data/qwen3-235b-a22b-math-train.json`

记录数: 12000
Qwen3-235B-A22B 答案准确率: 90.8% (10898/12000)
字段平均令牌数:
- gtruth_answer: 12.49
- message_content: 571.53
- message_thinking: 3130.71
- problem: 80.80

预期用途

该数据集旨在用于教育目的，训练大语言模型（例如从 DeepSeek R1 或 Qwen3-235B-A22B 进行知识蒸馏）。

使用方式

可以使用 datasets 库加载数据集，示例如下： python from datasets import load_dataset

repo_id = "rasbt/math_distill" train = load_dataset(repo_id, "math_train", split="train") math500 = load_dataset(repo_id, "math500", split="train") qwen3_math500 = load_dataset(repo_id, "qwen3_235b_a22b_math500", split="train") train_4000 = load_dataset(repo_id, "math_train_4000", split="train") qwen3_train = load_dataset(repo_id, "qwen3_235b_a22b_math_train", split="train")

引用

如果使用此数据集，请引用原始数据源：

HuggingFaceH4/MATH-500: https://huggingface.co/datasets/HuggingFaceH4/MATH-500
qwedsacf/competition_math: https://huggingface.co/datasets/qwedsacf/competition_math

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，高质量的数据集对于提升大型语言模型的推理能力至关重要。MATH Distill数据集的构建过程体现了精心的设计思路，其核心方法是从两个权威数学问题集合中提取原始题目，并利用先进的模型生成蒸馏数据。具体而言，该数据集整合了来自MATH-500的500个问题以及来自Hendrycks等人构建的MATH数据集的12000个非重叠问题。随后，通过DeepSeek R1和Qwen3-235B-A22B这两个高性能模型为所有问题生成详细的推理轨迹和最终答案，从而形成了包含问题陈述、标准答案、模型思考过程和模型输出内容的结构化数据。这一构建流程确保了数据来源的可靠性和生成内容的丰富性，为后续的模型训练提供了坚实的素材基础。

特点

该数据集在数学推理任务中展现出鲜明的技术特征。其数据结构设计精良，每个样本均包含四个关键字段：原始问题、标准答案、模型生成的思维链以及模型输出的最终答案。这种结构不仅完整记录了问题的求解过程，还清晰地分离了推理步骤与结论，为分析模型行为提供了多维视角。从统计信息来看，模型生成的思维链平均长度显著，体现了深度推理的特点；同时，不同配置的数据文件在答案准确率上均保持在90%以上，显示了生成内容的高可靠性。此外，数据集还提供了经过长度过滤的版本，通过移除超过特定令牌数量的样本来优化训练效率，这为研究者在不同计算资源约束下进行实验提供了灵活性。

使用方法

对于希望利用该数据集进行研究的学者而言，其使用方法直观且高效。研究者可以通过Hugging Face的`datasets`库轻松加载不同的数据配置，例如完整的训练集或特定的MATH-500子集。加载后，数据以标准字典格式呈现，便于直接访问问题、答案及模型生成内容。典型应用场景包括大型语言模型的蒸馏训练，即利用数据集中的模型推理轨迹来指导较小模型的参数优化。在具体操作中，用户可以将思维链与最终答案按照特定模板组合，构建出完整的模型响应，进而作为训练目标。数据集中附带的评估脚本还能帮助用户量化生成答案的准确性，为模型性能的客观评估提供了便利工具。

背景与挑战

背景概述

在人工智能领域，数学推理能力是衡量大型语言模型认知水平的关键维度。MATH Distill数据集应运而生，旨在通过知识蒸馏技术提升模型在复杂数学问题上的求解性能。该数据集由研究人员rasbt于近期构建，其核心研究问题聚焦于如何利用先进模型如DeepSeek R1和Qwen3-235B-A22B生成的推理轨迹与答案，来训练更高效的轻量化模型。它整合了MATH-500的500个样本以及Hendrycks等人创建的MATH数据集中不重叠的12,000个问题，为数学推理领域提供了高质量的蒸馏数据资源，推动了教育导向的模型优化研究。

当前挑战

该数据集致力于解决数学问题求解领域的核心挑战，即如何让语言模型不仅输出最终答案，还能生成清晰、连贯的推理过程。这要求模型具备深层次的逻辑演绎与符号计算能力。在构建过程中，挑战主要体现在数据生成与处理的复杂性上：一方面，需要确保大型语言模型生成的思维链（message_thinking）与最终答案（message_content）在逻辑上一致且准确；另一方面，原始数据中的问题长度与模型输出存在显著差异，例如部分思维链长达数万令牌，需通过过滤策略（如限制4000令牌）来平衡数据质量与训练效率，同时维持较高的答案准确率。

常用场景

经典使用场景

在数学推理领域，大型语言模型的训练常面临高质量思维链数据稀缺的挑战。MATH Distill数据集通过集成DeepSeek R1和Qwen3-235B-A22B等先进模型生成的推理轨迹，为知识蒸馏提供了标准化的训练素材。该数据集特别适用于指导小型模型学习复杂数学问题的分步求解逻辑，通过解析message_thinking字段中蕴含的推理路径，模型能够掌握从问题理解到最终答案生成的完整认知过程。

解决学术问题

该数据集有效缓解了数学推理任务中监督信号不足的困境，其核心价值在于将黑箱式答案生成转化为可解释的思维链学习。通过提供高精度标注的推理轨迹（平均准确率达90%以上），研究者能够深入探究模型数学推理能力的形成机制。这不仅推动了思维链蒸馏技术的理论发展，更为评估模型推理一致性、错误归因分析等前沿课题提供了标准化实验基准。

衍生相关工作

该数据集的发布催生了系列创新研究，例如基于多模型蒸馏的鲁棒性增强方法，通过对比DeepSeek与Qwen生成轨迹的差异性提升模型泛化能力。在数据高效学习方向，学者利用其构建的思维链压缩算法显著降低了训练开销。近期工作进一步扩展了其应用边界，如将数学推理模式迁移至物理问题求解，以及开发基于推理轨迹可解释性的模型校准技术，持续推动着认知智能领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集