mAceReason-Math

github2026-03-12 更新2026-03-14 收录

下载链接：

https://github.com/apple/ml-macereason-math

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自AceReason-Math的数学推理问题的翻译版本，AceReason-Math是一个为RLVR训练策划的数学推理数据集。数据集涵盖14种语言，包含约140k个翻译的推理问题和答案。我们发布此数据集以促进研究社区中的多语言RLVR研究。

This dataset contains translated versions of mathematical reasoning problems sourced from AceReason-Math, a mathematical reasoning dataset curated for RLVR training. The dataset covers 14 languages and includes approximately 140k translated reasoning problems and their corresponding answers. We are releasing this dataset to facilitate multilingual RLVR research within the research community.

创建时间：

2026-03-06

原始信息汇总

mAceReason-Math 数据集概述

数据集基本信息

数据集名称：mAceReason-Math: A Dataset of High-quality Multilingual Math Problems Ready for RLVR
发布机构：Apple
发布日期：2026年3月
许可协议：Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC-by-NC-ND 4.0)
对应论文：https://arxiv.org/abs/2603.10767
联系人：Konstantin Dobler (konstantin.dobler@hpi.de) 和 Simon Lehnerer (simon.lehnerer@apple.com)

数据集描述

该数据集包含来自 AceReason-Math 的数学推理问题的翻译版本，AceReason-Math 是一个为 RLVR 训练策划的数学推理数据集。数据集涵盖 14 种语言，总共包含约 140k 个翻译后的推理问题和答案。发布此数据集旨在促进研究社区的多语言 RLVR 研究。

关键特性

跨语言并行：train 和 test 划分包含所有语言可用的样本。
数据清洗：在翻译前对英语源样本进行处理以去除伪影。
翻译方法：基于 LLM 的翻译（Claude Sonnet 4），并对 11 种语言的测试集进行了人工验证。
涵盖语言：
- 经过人工审核的语言：中文、西班牙语、德语、法语、俄语、巴西葡萄牙语、意大利语、日语、韩语、泰语 + 英语（原始语言）。
- 额外提供但未经人工审核的语言：斯瓦希里语、泰卢固语、孟加拉语。

数据集结构

数据实例

翻译配置（例如德语）示例： json { "original_idx": 21193, "problem": "Ein Parallelogramm hat 3 seiner Eckpunkte bei (1,2), (3,8) und (4,1). Berechne die Summe der möglichen x-Koordinaten für den 4. Eckpunkt.", "solution": "8", "english_has_been_cleaned": false }

英语修改配置 (en_modifications) 示例： json { "original_idx": 193, "english_problem_modification": "QlNESUZGNDA...", "english_solution_modification": null, "english_has_been_cleaned": true }

英语修改包含 base64 编码的二进制补丁（bsdiff4 格式），可应用于原始 AceReason-Math 数据集以重建清洗后的英语版本。

数据字段

翻译配置字段：

original_idx：来自原始数据集的唯一标识符。
problem / solution：数学问题陈述和答案（目标语言）。
english_has_been_cleaned：布尔值，指示英语源在翻译前是否已被清洗。

英语修改配置 (en_modifications) 字段：

original_idx：来自原始数据集的唯一标识符。
english_problem_modification：问题的 base64 编码 bsdiff4 补丁（如果未更改则为 null）。
english_solution_modification：答案的 base64 编码 bsdiff4 补丁（如果未更改则为 null）。
english_has_been_cleaned：布尔值，指示样本是否已被清洗。

数据划分

train：每种语言 7,620 个样本 —— 在所有语言间并行。
test：每种语言 190 个样本 —— 并行。
train_all：每种语言的所有可用样本（各语言数量从 10,270 到 12,245 不等）。
asy：每种语言 96 个样本 —— 包含用于图表 [asy] 的特定问题集的独立划分。此划分单独提供，用于测试非常特定的模型技能。

test 划分是随机采样的，并且在所有语言中保持一致。train 划分在所有语言间并行，而 train_all 划分包含每种语言的所有可用数据（不包括 test 和 asy 划分）。

语言统计

语言	代码	`train` (并行)	`test` (并行)	`train_all`
英语	en	7,620	190	12,245
德语	de	7,620	190	11,151
法语	fr	7,620	190	11,007
西班牙语	es	7,620	190	11,346
中文	zh	7,620	190	10,470
俄语	ru	7,620	190	11,237
日语	ja	7,620	190	10,376
泰语	th	7,620	190	11,104
葡萄牙语	pt	7,620	190	10,632
意大利语	it	7,620	190	10,646
韩语	ko	7,620	190	10,270
斯瓦希里语	sw	7,620	190	11,124
泰卢固语	te	7,620	190	10,964
孟加拉语	bn	7,620	190	11,082

英语数据可以使用 en_modifications 配置从原始 AceReason-Math 数据集重建。

数据集创建

源数据

源数据来自 AceReason-Math，这是一个为 RLVR 训练策划的数学推理数据集。我们首先通过移除有问题的样本来过滤原始英语数据，例如问题陈述中已经揭示答案的问题，或者包含对图表或图形关键引用（但未提供）的问题。这影响了大约 4% 的原始数据。我们还清洗了具有次要问题的样本，例如任务编号注释（"Problem 4.1: [...]"），约占样本的 11%。此过滤和清洗过程使用 Claude Sonnet 4 进行。

翻译过程

翻译同样使用 Claude Sonnet 4 进行。我们最初翻译 100 个随机样本，并从我们的母语注释者那里收集反馈。然后，我们使用此反馈来改进提示，并为整个数据集运行翻译流程。我们采用迭代方法，在 LLM-as-a-Judge 评分轮次中根据预定义的评分标准对翻译进行评分。如果检测到任何问题，我们会根据额外反馈重新翻译样本。此过程最多重复 5 次。

注意：在翻译中，我们本地化了问题和答案中的数字格式（例如，美国：1,000,000.0 对比德语：1.000.000,0）。在简单情况下，大多数符号验证器（例如 huggingface/math-verify）可以处理此问题，但对于仅支持美国格式的更复杂情况可能会失败。在这些情况下，您可能需要使用英语答案。

预期用途

mAceReason-Math 数据集旨在供社区用于多语言 LLM 强化学习。该数据可用于训练和评估。

引用

bibtex @misc{dobler2026macereasonmathdatasethighqualitymultilingual, title={mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR}, author={Konstantin Dobler and Simon Lehnerer and Federico Scozzafava and Jonathan Janke and Mohamed Ali}, year={2026}, eprint={2603.10767}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.10767}, }

搜集汇总

数据集介绍

构建方式

在数学推理领域，高质量多语言数据集的构建对于推进强化学习研究至关重要。mAceReason-Math数据集以AceReason-Math为源数据，通过严谨的预处理流程，利用Claude Sonnet 4模型对原始英文问题进行了筛选与清洗，移除了包含解题线索或依赖未提供图表的问题，确保了数据质量。随后，采用基于大型语言模型的翻译方法，将问题与答案精准转化为14种目标语言，并在翻译过程中融入了本地化数字格式调整，以增强跨语言适用性。

特点

该数据集的核心特征体现在其跨语言并行性与高质量保证上。所有语言版本在训练集与测试集上均保持严格的样本对齐，为多语言模型评估提供了可靠基准。数据经过人工验证，其中11种语言由母语者审核，确保了翻译的准确性与自然度。数据集结构清晰，包含并行训练集、测试集及额外的问题子集，特别提供了包含图表标记的独立分割，以测试模型处理视觉相关数学问题的能力。

使用方法

研究人员可通过Hugging Face的datasets库便捷地加载该数据集。针对不同语言，提供了统一的加载函数，用户指定语言代码即可获取对应数据。对于英文版本，数据集采用创新的补丁机制，通过应用bsdiff4格式的二进制补丁来重构清洗后的内容，既保持了与原始数据的关联，又实现了优化。加载后的数据可直接用于多语言数学推理模型的训练与评估，支持强化学习研究范式的拓展。

背景与挑战

背景概述

随着大型语言模型在数学推理任务上的广泛应用，多语言数学问题数据集的需求日益凸显。mAceReason-Math数据集由苹果公司及相关研究机构于2026年3月发布，旨在为强化学习与语言模型训练提供高质量的多语言数学推理资源。该数据集基于NVIDIA的AceReason-Math构建，通过先进的大语言模型翻译技术覆盖了包括中文、德语、法语等在内的14种语言，总计约14万条翻译后的问题与答案。其核心研究问题聚焦于提升多语言环境下数学推理模型的泛化能力与性能评估，为跨语言人工智能研究提供了重要的基准数据支撑。

当前挑战

在数学推理领域，构建高质量多语言数据集面临双重挑战。其一，领域问题的挑战在于确保数学问题的精确翻译与逻辑一致性，不同语言在数字格式、术语表达及文化语境上存在差异，可能影响模型对问题语义的理解与求解。其二，构建过程中的挑战涉及数据清洗与翻译质量控制，原始英文数据需剔除包含解题暗示或依赖未提供图示的样本，而翻译环节需通过多轮迭代与人工验证来保证译文准确性，尤其在处理复杂符号与本地化数字格式时，维持跨语言并行数据的高质量与可比性是一项艰巨任务。

常用场景

经典使用场景

在跨语言数学推理研究领域，mAceReason-Math数据集为多语言强化学习与验证推理（RLVR）提供了标准化的评估基准。该数据集覆盖14种语言，包含约14万道高质量翻译的数学问题及其答案，其经典使用场景在于训练和评估多语言大语言模型在数学推理任务上的泛化能力。研究者可利用其平行语料设计跨语言迁移实验，探究模型在不同语言间知识传递的机制，从而推动多语言人工智能系统在复杂逻辑任务上的性能提升。

解决学术问题

该数据集有效解决了多语言环境下数学推理数据稀缺和质量不均的学术难题。通过基于大型语言模型的翻译流程与人工验证机制，它确保了跨语言问题在语义和逻辑上的一致性，为研究社区提供了可靠的实验数据基础。其意义在于打破了语言壁垒，使得数学推理模型的评估不再局限于英语，促进了公平、全面的性能比较，并为多语言对齐、跨语言知识迁移等前沿研究方向提供了实证支撑。

衍生相关工作

围绕mAceReason-Math数据集，已衍生出一系列专注于多语言数学推理的经典研究工作。这些工作通常基于该数据集的平行测试集，对各类大语言模型进行系统性评估，比较其在不同语言上的推理性能差距。相关研究进一步探索了通过跨语言微调、提示工程或数据增强等方法，提升模型在低资源语言上的表现，从而推动了多语言推理模型的技术演进，并为后续构建更通用的数学问题求解器奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集