MathR和MathR-32B-Distill

github2025-03-10 更新2025-02-21 收录

下载链接：

https://github.com/modelscope/r-chain

下载链接

链接失效反馈

官方服务：

资源简介：

MathR和MathR-32B-Distill数据集是基于DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B模型生成的，用于数学推理精炼任务的数据集。它们包含了从NuminaMath-CoT等公开数据集中选取的问题，以及教师模型对这些问题的推理步骤和答案。

The MathR and MathR-32B-Distill datasets are constructed for mathematical reasoning tasks and contain reasoning processes generated using the DeepSeek-R1 and DeepSeek-R1-Distill-Qwen-32B models.

创建时间：

2025-02-11

原始信息汇总

R-Chain数据集概述

数据集简介

名称：R-Chain
类型：数学推理模型蒸馏工具包及相关数据集
目的：用于系统化复现推理模型（如DeepSeek-R1系列）的蒸馏过程

包含的数据集

MathR
- 生成方式：使用DeepSeek-R1模型生成推理过程
- 数据格式：包含raw和clean两个子集
- 数据来源：基于NuminaMath-CoT公开数据集
MathR-32B-Distill
- 生成方式：使用DeepSeek-R1-Distill-Qwen-32B模型生成推理过程
- 数据格式：包含raw和clean两个子集
- 数据来源：基于NuminaMath-CoT公开数据集

数据集构建流程

问题选择
- 来源：NuminaMath-CoT数据集
- 问题类型：amc_aime、math、gsm8k等
教师模型推理
- 使用指令提示："Please reason step by step, and put your final answer within oxed{}."
- 输出格式：`<think>{reasoning_content}</think>

<answer>{content}</answer>`

最终格式：标准messages格式

响应过滤
- 方法：基于规则的过滤策略
- 目标：过滤错误推理内容
- 结果：生成clean子集

训练与评估工具

训练工具
- 基于ms-swift
- 默认配置：8个GPU
- 训练脚本：train_MathR-Distill-7B.sh
评估工具
- 基于evalscope
- 评估基准：MATH-500和GPQA-Diamond
- 评估指标：Pass@1
- 评估脚本：eval_MathR_Distill_7B.py

部署

部署方式：vllm后端
部署脚本：deploy_MathR-Distill-7B.sh

搜集汇总

数据集介绍

构建方式

MathR及MathR-32B-Distill数据集的构建，是以NuminaMath-CoT等公开数据集为基础，选取包含不同类型数学问题的题目。通过DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B等教师模型生成推理过程和答案，并按照特定模板进行格式化处理，形成可直接用于训练的消息格式数据。同时，针对教师模型在处理挑战性问题时的错误，采用基于规则的过滤策略进行数据清洗。

特点

该数据集的特色在于，它不仅包含了丰富的数学问题类型，还通过教师模型生成的推理过程，为数学推理任务的模型训练提供了高质量的数据。同时，经过精细的过滤和清洗过程，确保了数据集的质量和准确性，有利于提高模型的推理能力和泛化能力。

使用方法

使用该数据集进行训练时，可以通过bash脚本进行监督微调。训练完成后，模型可以部署到vllm backend进行评估。评估过程同样可以通过脚本进行，使用evalscope工具在MATH-500和GPQA-Diamond基准上进行，通过Pass@1指标来衡量模型性能。

背景与挑战

背景概述

MathR与MathR-32B-Distill数据集是在数学推理任务背景下，由DeepSeek-R1系列推理模型启发而构建的。该数据集的创建旨在对推理模型进行蒸馏处理，以实现数学推理等多种任务的高效执行。MathR与MathR-32B-Distill数据集的构建工作始于近年，由DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B模型生成，并得到了广泛的应用和认可。其主要研究人员或机构暂不明确，但该数据集对数学推理领域的研究具有显著影响，为相关任务提供了高质量的数据支持。

当前挑战

MathR与MathR-32B-Distill数据集在构建过程中面临了多项挑战。首先，数据集构建中需筛选合适的问题，并利用教师模型生成推理过程和答案。其次，由于教师模型在面对复杂数学问题时可能产生错误，因此需要采用基于规则的方法对生成的数据进行过滤。此外，数据集的构建还需考虑到不同问题来源的适应性，实施不同的过滤策略以确保数据质量。在研究领域问题方面，MathR与MathR-32B-Distill数据集旨在提升数学推理任务的准确性和效率，但如何精确地评估和优化模型在这一任务上的表现，仍是一个持续的挑战。

常用场景

经典使用场景

在数学推理领域，MathR及MathR-32B-Distill数据集的典型应用场景在于对数学问题进行推理过程的学习与优化。该数据集通过整合了DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B模型生成的推理过程，为训练模型提供了高质量的教学示例，从而使得学生模型能够学习如何一步步进行数学推理并准确给出答案。

衍生相关工作

基于MathR和MathR-32B-Distill数据集，已经衍生出一系列相关工作，包括对数学推理模型的进一步优化、推理过程的可视化展示，以及将此类模型应用于更多数学教育场景中，如自动评分系统、智能辅导系统等，推动了数学教育技术领域的研究与应用发展。

数据集最近研究