mAceReason-Math

Name: mAceReason-Math
Creator: 苹果公司; 哈索·普拉特纳研究所·ELLIS波茨坦分部
Published: 2026-03-11 21:42:26
License: 暂无描述

arXiv2026-03-11 更新2026-03-13 收录

下载链接：

https://github.com/apple/ml-macereason-math

下载链接

链接失效反馈

官方服务：

资源简介：

mAceReason-Math是由苹果公司与哈索·普拉特纳研究所联合创建的多语言数学推理数据集，包含源自AceReason-Math的14万道高质量翻译数学题，覆盖14种语言且每种语言含超1万样本。该数据集通过混合LLM翻译与人工校验流程构建，特别关注保留原题的逻辑复杂性和数学严谨性，其核心7,620条样本实现全语言平行对齐。作为强化学习可验证奖励（RLVR）研究的重要资源，该数据集旨在突破当前多语言数学推理模型训练的瓶颈，为GRPO等先进算法提供跨语言评估基准。

mAceReason-Math is a multilingual mathematical reasoning dataset co-developed by Apple Inc. and Hasso Plattner Institute. It contains 140,000 high-quality translated mathematics problems sourced from AceReason-Math, spanning 14 languages with over 10,000 samples per language. Constructed via a hybrid workflow combining Large Language Model (LLM)-based translation and manual verification, this dataset places special emphasis on preserving the logical complexity and mathematical rigor of the original problems. Its core subset of 7,620 samples achieves full cross-lingual parallel alignment. As a critical resource for research on Reinforcement Learning with Verifiable Reward (RLVR), this dataset aims to break through the bottlenecks in training current multilingual mathematical reasoning models, providing cross-lingual evaluation benchmarks for advanced algorithms such as GRPO.

提供机构：

苹果公司; 哈索·普拉特纳研究所·ELLIS波茨坦分部

创建时间：

2026-03-11

原始信息汇总

mAceReason-Math 数据集概述

数据集简介

mAceReason-Math 是一个高质量的多语言数学推理问题数据集，专为强化学习与视觉推理研究准备。该数据集包含约14万条翻译后的推理问题和答案，涵盖14种语言，旨在促进研究社区的多语言RLVR研究。

关键特性

跨语言平行性：train 和 test 数据分割在所有语言中均包含平行样本。
数据清洗：翻译前对英文源样本进行了处理，以移除伪影。
翻译方法：采用基于LLM的翻译，使用Claude Sonnet 4模型，并对11种语言的测试集进行了人工验证。
涵盖语言：
- 经过人工审阅的语言：中文、西班牙语、德语、法语、俄语、巴西葡萄牙语、意大利语、日语、韩语、泰语以及原始英语。
- 额外提供但未经人工审阅的语言：斯瓦希里语、泰卢固语、孟加拉语。

数据集结构

数据实例

翻译配置：包含 original_idx、problem、solution 和 english_has_been_cleaned 字段。
英文修改配置：包含 original_idx、english_problem_modification、english_solution_modification 和 english_has_been_cleaned 字段。英文修改包含base64编码的二进制补丁，用于从原始AceReason-Math数据集重建清洗后的英文版本。

数据字段

翻译配置字段：
- original_idx：来自原始数据集的唯一标识符。
- problem / solution：数学问题陈述和解答（目标语言）。
- english_has_been_cleaned：布尔值，指示英文源在翻译前是否已被清洗。
英文修改配置字段：
- original_idx：来自原始数据集的唯一标识符。
- english_problem_modification：针对问题的Base64编码bsdiff4补丁（若未更改则为null）。
- english_solution_modification：针对解答的Base64编码bsdiff4补丁（若未更改则为null）。
- english_has_cleaned：布尔值，指示样本是否被清洗。

数据分割

train：每种语言7,620个样本，在所有语言间平行。
test：每种语言190个样本，在所有语言间平行。
train_all：每种语言所有可用样本（数量因语言而异，范围从10,270到12,245）。
asy：每种语言96个样本，包含特定问题集的独立分割，用于测试包含[asy]图表的问题。

语言统计

语言	代码	`train` (平行)	`test` (平行)	`train_all`
英语	en	7,620	190	12,245
德语	de	7,620	190	11,151
法语	fr	7,620	190	11,007
西班牙语	es	7,620	190	11,346
中文	zh	7,620	190	10,470
俄语	ru	7,620	190	11,237
日语	ja	7,620	190	10,376
泰语	th	7,620	190	11,104
葡萄牙语	pt	7,620	190	10,632
意大利语	it	7,620	190	10,646
韩语	ko	7,620	190	10,270
斯瓦希里语	sw	7,620	190	11,124
泰卢固语	te	7,620	190	10,964
孟加拉语	bn	7,620	190	11,082

数据集创建

源数据

源数据来自AceReason-Math，这是一个为RLVR训练整理的数学推理数据集。首先对原始英文数据进行了过滤和清洗，移除了问题陈述中已透露答案或包含对未提供图表的关键引用等有问题的样本，影响了约4%的原始数据。此外，还对约11%的样本进行了次要问题清洗。

翻译过程

翻译使用Claude Sonnet 4完成。采用了迭代方法，翻译根据预定义的评分标准进行LLM-as-a-Judge评级，若发现问题则进行重新翻译。翻译过程中对数字格式进行了本地化。

使用许可

本数据集采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可，详细信息见 https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode.txt。

预期用途

mAceReason-Math数据集旨在供社区用于多语言大语言模型强化学习，可用于训练和评估。

发布日期

2026年3月

联系方式

Konstantin Dobler (konstantin.dobler@hpi.de) 和 Simon Lehnerer (simon.lehnerer@apple.com)。

引用

bibtex @misc{dobler2026macereasonmathdatasethighqualitymultilingual, title={mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR}, author={Konstantin Dobler and Simon Lehnerer and Federico Scozzafava and Jonathan Janke and Mohamed Ali}, year={2026}, eprint={2603.10767}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.10767}, }

搜集汇总

数据集介绍

构建方式

在数学推理领域，强化学习与可验证奖励（RLVR）已成为提升大型语言模型能力的关键范式，然而现有高质量训练数据多集中于英语，限制了多语言环境下的研究进展。为填补这一空白，mAceReason-Math数据集通过精心设计的混合构建流程，将源自AceReason-Math的英语数学难题翻译为14种语言。构建过程首先对原始英语数据进行严格清洗，利用正则表达式与大型语言模型过滤含图像链接、答案泄露或格式错误的样本，并对约11%的可修复表面问题（如任务标注、格式不一致）进行修正。随后采用迭代式翻译策略：基于Claude Sonnet 4生成初始译文，通过预定义质量标准进行自动评估，并对未达标样本进行多轮优化，最终辅以以德语、法语、中文等10种语言为母语的标注者对译文进行人工验证，确保数学逻辑的准确性与语言的自然流畅。该流程最终产出超过14万条高质量翻译，每种语言涵盖超过1万条样本，其中7620条样本在所有语言间完全平行。

特点

mAceReason-Math数据集的核心特征体现在其高质量、多语言覆盖与难度适配性上。该数据集专注于数学推理任务，所有问题均源自专为RLVR设计的挑战性英语题库，确保了问题复杂度与当前先进模型的能力相匹配，能够为训练提供有效的学习信号。其多语言维度覆盖了德语、法语、西班牙语、中文、日语、俄语等14种语言，不仅样本规模庞大（每种语言超万条），还提供了完全平行的训练子集，为跨语言模型训练与评估提供了直接可比的基础。数据质量通过严格的混合质量控制流程得以保障：结合了基于大型语言模型的自动清洗、迭代式翻译优化以及以母语者为主导的人工验证，显著降低了翻译错误与格式不一致问题，使数学符号、逻辑关系及文化语境适配均保持了高度忠实性。这些特征共同使其成为推动多语言RLVR研究的稀缺资源。

使用方法

该数据集旨在支持多语言环境下基于强化学习的数学推理研究，其使用方法可根据不同研究目标灵活调整。对于模型训练，研究者可利用完整的训练分割（每种语言1万至1.2万余条样本）进行多语言或单语言的监督微调或RLVR训练，其中完全平行的训练子集（每种语言7620条）特别适用于探究跨语言知识迁移或进行控制变量实验。在模型评估方面，数据集中包含一个经过人工验证的平行测试集（190条样本），支持对14种语言进行系统化的性能评测，研究者可借此分析模型在不同语言上的推理能力差异。使用中需注意遵循数据集提供的答案提取格式（如<answer>标签或\boxed{}），并利用兼容多语言数字格式的自动验证工具进行答案核对。此外，数据集中的非平行样本可用于扩充训练数据规模，而包含图表代码的独立分割则为处理特殊数学表达提供了额外资源。

背景与挑战

背景概述

随着强化学习与可验证奖励机制在提升大语言模型数学与逻辑推理能力方面取得显著进展，相关研究却长期受限于英语中心化的数据资源。为弥合这一鸿沟，Apple与Hasso Plattner Institute的研究团队于2026年3月发布了mAceReason-Math数据集。该数据集源自专为强化学习设计的AceReason-Math英文语料库，通过高质量的跨语言翻译，覆盖了包括德语、中文、日语在内的14种语言，每种语言包含超过一万个数学问题样本。其核心目标在于为多语言环境下的强化学习研究提供难度匹配当前模型能力的高质量训练与评估基准，推动数学推理领域的多语言技术发展。

当前挑战

该数据集致力于解决多语言数学推理任务中高质量训练数据稀缺的核心挑战，尤其针对强化学习与可验证奖励范式下模型所需的高难度问题。构建过程中的主要困难体现在两方面：一是确保跨语言翻译在保留复杂数学逻辑与LaTeX格式精确性的同时，兼顾各语言的文化习惯与术语规范性；二是通过混合式翻译流程（结合大语言模型初译与人工母语校验）在规模化生产中维持数据质量，并需有效清理原始语料中的损坏样本、格式异常及上下文缺失等问题，以构建可靠的多语言并行语料。

常用场景

经典使用场景

在强化学习与可验证奖励（RLVR）范式中，mAceReason-Math数据集被广泛用于训练和评估多语言大型语言模型在数学推理任务上的性能。该数据集通过提供14种语言的高质量数学问题翻译，使得研究者能够在非英语环境下应用群体相对策略优化（GRPO）等方法，探索模型在跨语言场景中的泛化能力与推理稳定性。其经典使用场景包括多语言数学问题求解的基准测试、跨语言知识迁移研究以及多语言RLVR训练流程的验证与优化。

解决学术问题

该数据集主要解决了当前数学推理研究中的语言局限性问题。以往基于RLVR的训练数据集中于英语，阻碍了多语言环境下模型能力的系统性探索。mAceReason-Math通过提供超过14万条高质量多语言数学问题，为研究者创造了探究跨语言数学推理泛化性、语言对齐效应以及多语言RLVR训练动态的实证基础。其意义在于推动了数学推理研究从单语向多语范式的转变，并为理解语言多样性对复杂推理任务的影响提供了关键数据支撑。

衍生相关工作

围绕mAceReason-Math数据集，研究者已开展多项经典衍生工作。例如，基于该数据集的跨语言数学推理评估框架被用于分析模型如Qwen3在多语言环境下的性能迁移规律。同时，该数据集启发了对多语言GRPO训练策略的改进研究，如针对语言特定难样本的增强学习算法设计。此外，该数据集还促进了多语言数学问题生成、翻译质量自动评估以及低资源语言推理能力提升等相关研究方向的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集