five

MathR

收藏
魔搭社区2026-01-09 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/modelscope/MathR
下载链接
链接失效反馈
官方服务:
资源简介:
#### ⚠️ 本数据集以及对应的评测效果,尚在完善中,当前进度请见介绍说明。敬请期待。 ⚠️ 同时也请关注我们的GitHub开源项目[r-chain](https://github.com/modelscope/r-chain.git) 的进展,欢迎Star🌟支持。 ### Intro 受包括[DeepSeek-R1系列模型](https://pre.modelscope.cn/collections/DeepSeek-R1-c8e86ac66ed943)在内的推理模型启发,我们在 Math 任务上一步步复现了 DeepSeek-R1 蒸馏模型的过程。本数据集从 [NuminaMath-COT 数据集](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)的数学问题出发,使用 R1 生成所有问题的 reasoning trace 和 answer, 并对生成的结果与 GroundTruth 进行对比与过滤。进一步,我们在 `Qwen2.5-7B-Instruct` 模型上验证了蒸馏数据的 SFT 效果。相关的数据、模型、数据生成代码、训练代码和评测代码完全开源在 [r-chain](https://github.com/modelscope/r-chain.git)。 #### 数据生成 所有数学问题来源于 [NuminaMath-COT](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT),我们按照数据来源的难度从难到易顺序生成所有数据。 基于 [DeepSeek-R1](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1) 生成的数据分布和进度:[MathR](https://modelscope.cn/datasets/modelscope/MathR) | 数据来源 | 样本总量 | 生成进度 | | -------------- | ---------- | ------- | | aops_forum | 30201 | ⏳ | | amc_aime | 4072 | ✅ | | cn_k12 | 276591 | ⏳ | | gsm8k | 7345 | ⏳ | | math | 7478 | ⏳ | | olympiads | 150581 | ⏳ | | orca_math | 153334 | ⏳ | | synthetic_amc | 62111 | ⏳ | | synthetic_math | 167895 | ⏳ | 基于 [DeepSeek-R1-Distill-Qwen-32B](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B) 生成的数据分布和进度:[MathR-32B-Distill](https://modelscope.cn/datasets/modelscope/MathR-32B-Distill) | 数据来源 | 样本总量 | 生成进度 | | -------------- | ---------- | -------- | | aops_forum | 30201 | ⏳ | | amc_aime | 4072 | ✅ | | cn_k12 | 276591 | ⏳ | | gsm8k | 7345 | ⏳ | | math | 7478 | ⏳ | | olympiads | 150581 | ✅ | | orca_math | 153334 | ⏳ | | synthetic_amc | 62111 | ⏳ | | synthetic_math | 167895 | ⏳ | 一共分成2个子数据集,subset_name分别是:default(原始数据集)、clean(过滤后)。 其中,clean数据集是在default数据集的基础上,根据match_score进行过滤,过滤条件是match_score大于0.8; #### 字段解释 每条数据包含的字段包括: - `id` (int): 唯一 id - `source` (string): 原数据集NuminaMath的数据来源字段,如 `orca_math`、`synthetic_amc`、`synthetic_math` 等。 - `problem` (string): 数学问题 - `solution` (string): 参考答案 - `messages` (list): 与模型的对话信息,包括 `system`, `user` 和 `assistant` 对应的 `content`。 - `origin_messages` (list): `NuminaMath-COT`的原始对话信息,我们将其保留了下来。 - `model` (string): 蒸馏模型名称。 - `generation_config` (dict): 模型的生成配置。 - `usage` (dict): 模型调用信息,包括 token 总量等信息。 - `match_score` (float): 匹配分数,用于评估模型生成的答案与参考答案的匹配程度;目前版本默认使用rule-based方法进行匹配,后续版本增加基于judge-model的匹配方法。 #### 评测 使用[EvalScope](https://github.com/modelscope/evalscope)评测框架在数据[R1-Distill-Math-Test](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)上进行评测,点击[链接](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)可查看具体使用方法。

⚠️ 本数据集及其配套评测方案仍处于完善阶段,当前进展详情请参见介绍说明,敬请期待。 ⚠️ 同时敬请关注我们的GitHub开源项目[r-chain](https://github.com/modelscope/r-chain.git) 的最新进展,欢迎Star🌟支持。 ### 介绍 受包括DeepSeek-R1系列模型在内的推理模型启发,我们针对数学(Math)任务,完整复现了DeepSeek-R1蒸馏模型的构建流程。本数据集基于[NuminaMath-COT 数据集(NuminaMath-COT)](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT)中的数学问题构建,首先使用DeepSeek-R1生成所有问题的推理轨迹(reasoning trace)与答案(answer),随后将生成结果与标准答案(GroundTruth)进行比对并完成过滤。进一步,我们在`Qwen2.5-7B-Instruct`模型上验证了蒸馏数据的监督微调(SFT)效果。相关的数据、模型、数据生成代码、训练代码与评测代码已完全开源至[r-chain](https://github.com/modelscope/r-chain.git)。 #### 数据生成 所有数学问题均源自[NuminaMath-COT 数据集(NuminaMath-COT)](https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT),我们按照数据来源的难度由高到低的顺序生成全部数据。 基于[DeepSeek-R1(DeepSeek-R1)](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1)生成的数据分布与进度详情,请参见[MathR](https://modelscope.cn/datasets/modelscope/MathR): | 数据来源 | 样本总数 | 生成进度 | | -------------- | ---------- | ------- | | aops_forum | 30201 | 进行中 | | amc_aime | 4072 | 已完成 | | cn_k12 | 276591 | 进行中 | | gsm8k | 7345 | 进行中 | | math | 7478 | 进行中 | | olympiads | 150581 | 进行中 | | orca_math | 153334 | 进行中 | | synthetic_amc | 62111 | 进行中 | | synthetic_math | 167895 | 进行中 | 基于[DeepSeek-R1-Distill-Qwen-32B(DeepSeek-R1-Distill-Qwen-32B)](https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)生成的数据分布与进度详情,请参见[MathR-32B-Distill](https://modelscope.cn/datasets/modelscope/MathR-32B-Distill): | 数据来源 | 样本总数 | 生成进度 | | -------------- | ---------- | -------- | | aops_forum | 30201 | 进行中 | | amc_aime | 4072 | 已完成 | | cn_k12 | 276591 | 进行中 | | gsm8k | 7345 | 进行中 | | math | 7478 | 进行中 | | olympiads | 150581 | 已完成 | | orca_math | 153334 | 进行中 | | synthetic_amc | 62111 | 进行中 | | synthetic_math | 167895 | 进行中 | 本数据集共包含2个子集,子集名称(subset_name)分别为:default(原始数据集)与clean(过滤后数据集)。其中clean子集是在default子集的基础上,通过匹配分数(match_score)进行筛选得到的,筛选条件为match_score大于0.8; #### 字段解释 每条数据包含以下字段: - `id`(整数型):唯一标识符 - `source`(字符串型):原始数据集NuminaMath的数据来源标识,例如`orca_math`、`synthetic_amc`、`synthetic_math`等。 - `problem`(字符串型):数学问题文本 - `solution`(字符串型):参考答案文本 - `messages`(列表型):与模型的交互对话信息,包含`system`、`user`与`assistant`角色对应的`content`内容。 - `origin_messages`(列表型):NuminaMath-COT数据集的原始对话信息,予以保留。 - `model`(字符串型):所使用的蒸馏模型名称。 - `generation_config`(字典型):模型的生成配置参数。 - `usage`(字典型):模型调用相关信息,包含Token总消耗量等内容。 - `match_score`(浮点型):匹配分数,用于评估模型生成答案与参考答案的匹配度;当前版本默认采用基于规则(rule-based)的匹配方法,后续版本将新增基于评测模型(judge-model)的匹配方案。 #### 评测 本数据集采用[EvalScope(EvalScope)](https://github.com/modelscope/evalscope)评测框架,在[R1-Distill-Math-Test](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)数据集上开展评测,点击[链接](https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test)可查看具体使用流程。
提供机构:
maas
创建时间:
2025-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作