MathR

Name: MathR
Creator: maas
Published: 2026-01-09 22:59:34
License: 暂无描述

魔搭社区2026-01-09 更新2025-02-15 收录

下载链接：

https://modelscope.cn/datasets/modelscope/MathR

下载链接

链接失效反馈

官方服务：

资源简介：

#### ⚠️ 本数据集以及对应的评测效果，尚在完善中，当前进度请见介绍说明。敬请期待。 ⚠️ 同时也请关注我们的GitHub开源项目[r-chain](https://github.com/modelscope/r-chain.git) 的进展，欢迎Star🌟支持。 ### Intro 受包括[DeepSeek-R1系列模型](https://pre.modelscope.cn/collections/DeepSeek-R1-c8e86ac66ed943)在内的推理模型启发，我们在 Math 任务上一步步复现了 DeepSeek-R1 蒸馏模型的过程。本数据集从 [NuminaMath-COT 数据集](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)的数学问题出发，使用 R1 生成所有问题的 reasoning trace 和 answer，并对生成的结果与 GroundTruth 进行对比与过滤。进一步，我们在 `Qwen2.5-7B-Instruct` 模型上验证了蒸馏数据的 SFT 效果。相关的数据、模型、数据生成代码、训练代码和评测代码完全开源在 [r-chain](https://github.com/modelscope/r-chain.git)。 #### 数据生成所有数学问题来源于 [NuminaMath-COT](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)，我们按照数据来源的难度从难到易顺序生成所有数据。基于 [DeepSeek-R1](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1) 生成的数据分布和进度：[MathR](https://modelscope.cn/datasets/modelscope/MathR) | 数据来源 | 样本总量 | 生成进度 | | -------------- | ---------- | ------- | | aops_forum | 30201 | ⏳ | | amc_aime | 4072 | ✅ | | cn_k12 | 276591 | ⏳ | | gsm8k | 7345 | ⏳ | | math | 7478 | ⏳ | | olympiads | 150581 | ⏳ | | orca_math | 153334 | ⏳ | | synthetic_amc | 62111 | ⏳ | | synthetic_math | 167895 | ⏳ | 基于 [DeepSeek-R1-Distill-Qwen-32B](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B) 生成的数据分布和进度：[MathR-32B-Distill](https://modelscope.cn/datasets/modelscope/MathR-32B-Distill) | 数据来源 | 样本总量 | 生成进度 | | -------------- | ---------- | -------- | | aops_forum | 30201 | ⏳ | | amc_aime | 4072 | ✅ | | cn_k12 | 276591 | ⏳ | | gsm8k | 7345 | ⏳ | | math | 7478 | ⏳ | | olympiads | 150581 | ✅ | | orca_math | 153334 | ⏳ | | synthetic_amc | 62111 | ⏳ | | synthetic_math | 167895 | ⏳ | 一共分成2个子数据集，subset_name分别是：default(原始数据集)、clean(过滤后)。其中，clean数据集是在default数据集的基础上，根据match_score进行过滤，过滤条件是match_score大于0.8； #### 字段解释每条数据包含的字段包括： - `id` (int): 唯一 id - `source` (string): 原数据集NuminaMath的数据来源字段，如 `orca_math`、`synthetic_amc`、`synthetic_math` 等。 - `problem` (string): 数学问题 - `solution` (string): 参考答案 - `messages` (list): 与模型的对话信息，包括 `system`, `user` 和 `assistant` 对应的 `content`。 - `origin_messages` (list): `NuminaMath-COT`的原始对话信息，我们将其保留了下来。 - `model` (string): 蒸馏模型名称。 - `generation_config` (dict): 模型的生成配置。 - `usage` (dict): 模型调用信息，包括 token 总量等信息。 - `match_score` (float): 匹配分数，用于评估模型生成的答案与参考答案的匹配程度；目前版本默认使用rule-based方法进行匹配，后续版本增加基于judge-model的匹配方法。 #### 评测使用[EvalScope](https://github.com/modelscope/evalscope)评测框架在数据[R1-Distill-Math-Test](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)上进行评测，点击[链接](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)可查看具体使用方法。

⚠️ 本数据集及其配套评测方案仍处于完善阶段，当前进展详情请参见介绍说明，敬请期待。 ⚠️ 同时敬请关注我们的GitHub开源项目[r-chain](https://github.com/modelscope/r-chain.git) 的最新进展，欢迎Star🌟支持。 ### 介绍受包括DeepSeek-R1系列模型在内的推理模型启发，我们针对数学（Math）任务，完整复现了DeepSeek-R1蒸馏模型的构建流程。本数据集基于[NuminaMath-COT 数据集（NuminaMath-COT）](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)中的数学问题构建，首先使用DeepSeek-R1生成所有问题的推理轨迹（reasoning trace）与答案（answer），随后将生成结果与标准答案（GroundTruth）进行比对并完成过滤。进一步，我们在`Qwen2.5-7B-Instruct`模型上验证了蒸馏数据的监督微调（SFT）效果。相关的数据、模型、数据生成代码、训练代码与评测代码已完全开源至[r-chain](https://github.com/modelscope/r-chain.git)。 #### 数据生成所有数学问题均源自[NuminaMath-COT 数据集（NuminaMath-COT）](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)，我们按照数据来源的难度由高到低的顺序生成全部数据。基于[DeepSeek-R1（DeepSeek-R1）](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1)生成的数据分布与进度详情，请参见[MathR](https://modelscope.cn/datasets/modelscope/MathR)： | 数据来源 | 样本总数 | 生成进度 | | -------------- | ---------- | ------- | | aops_forum | 30201 | 进行中 | | amc_aime | 4072 | 已完成 | | cn_k12 | 276591 | 进行中 | | gsm8k | 7345 | 进行中 | | math | 7478 | 进行中 | | olympiads | 150581 | 进行中 | | orca_math | 153334 | 进行中 | | synthetic_amc | 62111 | 进行中 | | synthetic_math | 167895 | 进行中 | 基于[DeepSeek-R1-Distill-Qwen-32B（DeepSeek-R1-Distill-Qwen-32B）](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)生成的数据分布与进度详情，请参见[MathR-32B-Distill](https://modelscope.cn/datasets/modelscope/MathR-32B-Distill)： | 数据来源 | 样本总数 | 生成进度 | | -------------- | ---------- | -------- | | aops_forum | 30201 | 进行中 | | amc_aime | 4072 | 已完成 | | cn_k12 | 276591 | 进行中 | | gsm8k | 7345 | 进行中 | | math | 7478 | 进行中 | | olympiads | 150581 | 已完成 | | orca_math | 153334 | 进行中 | | synthetic_amc | 62111 | 进行中 | | synthetic_math | 167895 | 进行中 | 本数据集共包含2个子集，子集名称（subset_name）分别为：default（原始数据集）与clean（过滤后数据集）。其中clean子集是在default子集的基础上，通过匹配分数（match_score）进行筛选得到的，筛选条件为match_score大于0.8； #### 字段解释每条数据包含以下字段： - `id`（整数型）：唯一标识符 - `source`（字符串型）：原始数据集NuminaMath的数据来源标识，例如`orca_math`、`synthetic_amc`、`synthetic_math`等。 - `problem`（字符串型）：数学问题文本 - `solution`（字符串型）：参考答案文本 - `messages`（列表型）：与模型的交互对话信息，包含`system`、`user`与`assistant`角色对应的`content`内容。 - `origin_messages`（列表型）：NuminaMath-COT数据集的原始对话信息，予以保留。 - `model`（字符串型）：所使用的蒸馏模型名称。 - `generation_config`（字典型）：模型的生成配置参数。 - `usage`（字典型）：模型调用相关信息，包含Token总消耗量等内容。 - `match_score`（浮点型）：匹配分数，用于评估模型生成答案与参考答案的匹配度；当前版本默认采用基于规则（rule-based）的匹配方法，后续版本将新增基于评测模型（judge-model）的匹配方案。 #### 评测本数据集采用[EvalScope（EvalScope）](https://github.com/modelscope/evalscope)评测框架，在[R1-Distill-Math-Test](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)数据集上开展评测，点击[链接](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)可查看具体使用流程。

提供机构：

maas

创建时间：

2025-02-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集