MathR
收藏魔搭社区2026-01-09 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/modelscope/MathR
下载链接
链接失效反馈官方服务:
资源简介:
#### ⚠️ 本数据集以及对应的评测效果,尚在完善中,当前进度请见介绍说明。敬请期待。 ⚠️
同时也请关注我们的GitHub开源项目[r-chain](https://github.com/modelscope/r-chain.git) 的进展,欢迎Star🌟支持。
### Intro
受包括[DeepSeek-R1系列模型](https://pre.modelscope.cn/collections/DeepSeek-R1-c8e86ac66ed943)在内的推理模型启发,我们在 Math 任务上一步步复现了 DeepSeek-R1 蒸馏模型的过程。本数据集从 [NuminaMath-COT 数据集](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)的数学问题出发,使用 R1 生成所有问题的 reasoning trace 和 answer, 并对生成的结果与 GroundTruth 进行对比与过滤。进一步,我们在 `Qwen2.5-7B-Instruct` 模型上验证了蒸馏数据的 SFT 效果。相关的数据、模型、数据生成代码、训练代码和评测代码完全开源在 [r-chain](https://github.com/modelscope/r-chain.git)。
#### 数据生成
所有数学问题来源于 [NuminaMath-COT](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT),我们按照数据来源的难度从难到易顺序生成所有数据。
基于 [DeepSeek-R1](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1) 生成的数据分布和进度:[MathR](https://modelscope.cn/datasets/modelscope/MathR)
| 数据来源 | 样本总量 | 生成进度 |
| -------------- | ---------- | ------- |
| aops_forum | 30201 | ⏳ |
| amc_aime | 4072 | ✅ |
| cn_k12 | 276591 | ⏳ |
| gsm8k | 7345 | ⏳ |
| math | 7478 | ⏳ |
| olympiads | 150581 | ⏳ |
| orca_math | 153334 | ⏳ |
| synthetic_amc | 62111 | ⏳ |
| synthetic_math | 167895 | ⏳ |
基于 [DeepSeek-R1-Distill-Qwen-32B](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B) 生成的数据分布和进度:[MathR-32B-Distill](https://modelscope.cn/datasets/modelscope/MathR-32B-Distill)
| 数据来源 | 样本总量 | 生成进度 |
| -------------- | ---------- | -------- |
| aops_forum | 30201 | ⏳ |
| amc_aime | 4072 | ✅ |
| cn_k12 | 276591 | ⏳ |
| gsm8k | 7345 | ⏳ |
| math | 7478 | ⏳ |
| olympiads | 150581 | ✅ |
| orca_math | 153334 | ⏳ |
| synthetic_amc | 62111 | ⏳ |
| synthetic_math | 167895 | ⏳ |
一共分成2个子数据集,subset_name分别是:default(原始数据集)、clean(过滤后)。
其中,clean数据集是在default数据集的基础上,根据match_score进行过滤,过滤条件是match_score大于0.8;
#### 字段解释
每条数据包含的字段包括:
- `id` (int): 唯一 id
- `source` (string): 原数据集NuminaMath的数据来源字段,如 `orca_math`、`synthetic_amc`、`synthetic_math` 等。
- `problem` (string): 数学问题
- `solution` (string): 参考答案
- `messages` (list): 与模型的对话信息,包括 `system`, `user` 和 `assistant` 对应的 `content`。
- `origin_messages` (list): `NuminaMath-COT`的原始对话信息,我们将其保留了下来。
- `model` (string): 蒸馏模型名称。
- `generation_config` (dict): 模型的生成配置。
- `usage` (dict): 模型调用信息,包括 token 总量等信息。
- `match_score` (float): 匹配分数,用于评估模型生成的答案与参考答案的匹配程度;目前版本默认使用rule-based方法进行匹配,后续版本增加基于judge-model的匹配方法。
#### 评测
使用[EvalScope](https://github.com/modelscope/evalscope)评测框架在数据[R1-Distill-Math-Test](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)上进行评测,点击[链接](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)可查看具体使用方法。
⚠️ 本数据集及其配套评测方案仍处于完善阶段,当前进展详情请参见介绍说明,敬请期待。 ⚠️
同时敬请关注我们的GitHub开源项目[r-chain](https://github.com/modelscope/r-chain.git) 的最新进展,欢迎Star🌟支持。
### 介绍
受包括DeepSeek-R1系列模型在内的推理模型启发,我们针对数学(Math)任务,完整复现了DeepSeek-R1蒸馏模型的构建流程。本数据集基于[NuminaMath-COT 数据集(NuminaMath-COT)](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)中的数学问题构建,首先使用DeepSeek-R1生成所有问题的推理轨迹(reasoning trace)与答案(answer),随后将生成结果与标准答案(GroundTruth)进行比对并完成过滤。进一步,我们在`Qwen2.5-7B-Instruct`模型上验证了蒸馏数据的监督微调(SFT)效果。相关的数据、模型、数据生成代码、训练代码与评测代码已完全开源至[r-chain](https://github.com/modelscope/r-chain.git)。
#### 数据生成
所有数学问题均源自[NuminaMath-COT 数据集(NuminaMath-COT)](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT),我们按照数据来源的难度由高到低的顺序生成全部数据。
基于[DeepSeek-R1(DeepSeek-R1)](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1)生成的数据分布与进度详情,请参见[MathR](https://modelscope.cn/datasets/modelscope/MathR):
| 数据来源 | 样本总数 | 生成进度 |
| -------------- | ---------- | ------- |
| aops_forum | 30201 | 进行中 |
| amc_aime | 4072 | 已完成 |
| cn_k12 | 276591 | 进行中 |
| gsm8k | 7345 | 进行中 |
| math | 7478 | 进行中 |
| olympiads | 150581 | 进行中 |
| orca_math | 153334 | 进行中 |
| synthetic_amc | 62111 | 进行中 |
| synthetic_math | 167895 | 进行中 |
基于[DeepSeek-R1-Distill-Qwen-32B(DeepSeek-R1-Distill-Qwen-32B)](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)生成的数据分布与进度详情,请参见[MathR-32B-Distill](https://modelscope.cn/datasets/modelscope/MathR-32B-Distill):
| 数据来源 | 样本总数 | 生成进度 |
| -------------- | ---------- | -------- |
| aops_forum | 30201 | 进行中 |
| amc_aime | 4072 | 已完成 |
| cn_k12 | 276591 | 进行中 |
| gsm8k | 7345 | 进行中 |
| math | 7478 | 进行中 |
| olympiads | 150581 | 已完成 |
| orca_math | 153334 | 进行中 |
| synthetic_amc | 62111 | 进行中 |
| synthetic_math | 167895 | 进行中 |
本数据集共包含2个子集,子集名称(subset_name)分别为:default(原始数据集)与clean(过滤后数据集)。其中clean子集是在default子集的基础上,通过匹配分数(match_score)进行筛选得到的,筛选条件为match_score大于0.8;
#### 字段解释
每条数据包含以下字段:
- `id`(整数型):唯一标识符
- `source`(字符串型):原始数据集NuminaMath的数据来源标识,例如`orca_math`、`synthetic_amc`、`synthetic_math`等。
- `problem`(字符串型):数学问题文本
- `solution`(字符串型):参考答案文本
- `messages`(列表型):与模型的交互对话信息,包含`system`、`user`与`assistant`角色对应的`content`内容。
- `origin_messages`(列表型):NuminaMath-COT数据集的原始对话信息,予以保留。
- `model`(字符串型):所使用的蒸馏模型名称。
- `generation_config`(字典型):模型的生成配置参数。
- `usage`(字典型):模型调用相关信息,包含Token总消耗量等内容。
- `match_score`(浮点型):匹配分数,用于评估模型生成答案与参考答案的匹配度;当前版本默认采用基于规则(rule-based)的匹配方法,后续版本将新增基于评测模型(judge-model)的匹配方案。
#### 评测
本数据集采用[EvalScope(EvalScope)](https://github.com/modelscope/evalscope)评测框架,在[R1-Distill-Math-Test](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)数据集上开展评测,点击[链接](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)可查看具体使用流程。
提供机构:
maas
创建时间:
2025-02-11



