mAceReason-Math
收藏mAceReason-Math 数据集概述
数据集基本信息
- 数据集名称:mAceReason-Math: A Dataset of High-quality Multilingual Math Problems Ready for RLVR
- 发布机构:Apple
- 发布日期:2026年3月
- 许可协议:Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC-by-NC-ND 4.0)
- 对应论文:https://arxiv.org/abs/2603.10767
- 联系人:Konstantin Dobler (konstantin.dobler@hpi.de) 和 Simon Lehnerer (simon.lehnerer@apple.com)
数据集描述
该数据集包含来自 AceReason-Math 的数学推理问题的翻译版本,AceReason-Math 是一个为 RLVR 训练策划的数学推理数据集。数据集涵盖 14 种语言,总共包含约 140k 个翻译后的推理问题和答案。发布此数据集旨在促进研究社区的多语言 RLVR 研究。
关键特性
- 跨语言并行:
train和test划分包含所有语言可用的样本。 - 数据清洗:在翻译前对英语源样本进行处理以去除伪影。
- 翻译方法:基于 LLM 的翻译(Claude Sonnet 4),并对 11 种语言的测试集进行了人工验证。
- 涵盖语言:
- 经过人工审核的语言:中文、西班牙语、德语、法语、俄语、巴西葡萄牙语、意大利语、日语、韩语、泰语 + 英语(原始语言)。
- 额外提供但未经人工审核的语言:斯瓦希里语、泰卢固语、孟加拉语。
数据集结构
数据实例
翻译配置(例如德语)示例: json { "original_idx": 21193, "problem": "Ein Parallelogramm hat 3 seiner Eckpunkte bei (1,2), (3,8) und (4,1). Berechne die Summe der möglichen x-Koordinaten für den 4. Eckpunkt.", "solution": "8", "english_has_been_cleaned": false }
英语修改配置 (en_modifications) 示例:
json
{
"original_idx": 193,
"english_problem_modification": "QlNESUZGNDA...",
"english_solution_modification": null,
"english_has_been_cleaned": true
}
英语修改包含 base64 编码的二进制补丁(bsdiff4 格式),可应用于原始 AceReason-Math 数据集以重建清洗后的英语版本。
数据字段
翻译配置字段:
- original_idx:来自原始数据集的唯一标识符。
- problem / solution:数学问题陈述和答案(目标语言)。
- english_has_been_cleaned:布尔值,指示英语源在翻译前是否已被清洗。
英语修改配置 (en_modifications) 字段:
- original_idx:来自原始数据集的唯一标识符。
- english_problem_modification:问题的 base64 编码 bsdiff4 补丁(如果未更改则为 null)。
- english_solution_modification:答案的 base64 编码 bsdiff4 补丁(如果未更改则为 null)。
- english_has_been_cleaned:布尔值,指示样本是否已被清洗。
数据划分
train:每种语言 7,620 个样本 —— 在所有语言间并行。test:每种语言 190 个样本 —— 并行。train_all:每种语言的所有可用样本(各语言数量从 10,270 到 12,245 不等)。asy:每种语言 96 个样本 —— 包含用于图表[asy]的特定问题集的独立划分。此划分单独提供,用于测试非常特定的模型技能。
test 划分是随机采样的,并且在所有语言中保持一致。train 划分在所有语言间并行,而 train_all 划分包含每种语言的所有可用数据(不包括 test 和 asy 划分)。
语言统计
| 语言 | 代码 | train (并行) |
test (并行) |
train_all |
|---|---|---|---|---|
| 英语 | en | 7,620 | 190 | 12,245 |
| 德语 | de | 7,620 | 190 | 11,151 |
| 法语 | fr | 7,620 | 190 | 11,007 |
| 西班牙语 | es | 7,620 | 190 | 11,346 |
| 中文 | zh | 7,620 | 190 | 10,470 |
| 俄语 | ru | 7,620 | 190 | 11,237 |
| 日语 | ja | 7,620 | 190 | 10,376 |
| 泰语 | th | 7,620 | 190 | 11,104 |
| 葡萄牙语 | pt | 7,620 | 190 | 10,632 |
| 意大利语 | it | 7,620 | 190 | 10,646 |
| 韩语 | ko | 7,620 | 190 | 10,270 |
| 斯瓦希里语 | sw | 7,620 | 190 | 11,124 |
| 泰卢固语 | te | 7,620 | 190 | 10,964 |
| 孟加拉语 | bn | 7,620 | 190 | 11,082 |
英语数据可以使用 en_modifications 配置从原始 AceReason-Math 数据集重建。
数据集创建
源数据
源数据来自 AceReason-Math,这是一个为 RLVR 训练策划的数学推理数据集。我们首先通过移除有问题的样本来过滤原始英语数据,例如问题陈述中已经揭示答案的问题,或者包含对图表或图形关键引用(但未提供)的问题。这影响了大约 4% 的原始数据。我们还清洗了具有次要问题的样本,例如任务编号注释("Problem 4.1: [...]"),约占样本的 11%。此过滤和清洗过程使用 Claude Sonnet 4 进行。
翻译过程
翻译同样使用 Claude Sonnet 4 进行。我们最初翻译 100 个随机样本,并从我们的母语注释者那里收集反馈。然后,我们使用此反馈来改进提示,并为整个数据集运行翻译流程。我们采用迭代方法,在 LLM-as-a-Judge 评分轮次中根据预定义的评分标准对翻译进行评分。如果检测到任何问题,我们会根据额外反馈重新翻译样本。此过程最多重复 5 次。
注意:在翻译中,我们本地化了问题和答案中的数字格式(例如,美国:1,000,000.0 对比 德语:1.000.000,0)。在简单情况下,大多数符号验证器(例如 huggingface/math-verify)可以处理此问题,但对于仅支持美国格式的更复杂情况可能会失败。在这些情况下,您可能需要使用英语答案。
预期用途
mAceReason-Math 数据集旨在供社区用于多语言 LLM 强化学习。该数据可用于训练和评估。
引用
bibtex @misc{dobler2026macereasonmathdatasethighqualitymultilingual, title={mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR}, author={Konstantin Dobler and Simon Lehnerer and Federico Scozzafava and Jonathan Janke and Mohamed Ali}, year={2026}, eprint={2603.10767}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.10767}, }




