mAceReason-Math
收藏mAceReason-Math 数据集概述
数据集简介
mAceReason-Math 是一个高质量的多语言数学推理问题数据集,专为强化学习与视觉推理研究准备。该数据集包含约14万条翻译后的推理问题和答案,涵盖14种语言,旨在促进研究社区的多语言RLVR研究。
关键特性
- 跨语言平行性:
train和test数据分割在所有语言中均包含平行样本。 - 数据清洗:翻译前对英文源样本进行了处理,以移除伪影。
- 翻译方法:采用基于LLM的翻译,使用Claude Sonnet 4模型,并对11种语言的测试集进行了人工验证。
- 涵盖语言:
- 经过人工审阅的语言:中文、西班牙语、德语、法语、俄语、巴西葡萄牙语、意大利语、日语、韩语、泰语以及原始英语。
- 额外提供但未经人工审阅的语言:斯瓦希里语、泰卢固语、孟加拉语。
数据集结构
数据实例
- 翻译配置:包含
original_idx、problem、solution和english_has_been_cleaned字段。 - 英文修改配置:包含
original_idx、english_problem_modification、english_solution_modification和english_has_been_cleaned字段。英文修改包含base64编码的二进制补丁,用于从原始AceReason-Math数据集重建清洗后的英文版本。
数据字段
- 翻译配置字段:
original_idx:来自原始数据集的唯一标识符。problem/solution:数学问题陈述和解答(目标语言)。english_has_been_cleaned:布尔值,指示英文源在翻译前是否已被清洗。
- 英文修改配置字段:
original_idx:来自原始数据集的唯一标识符。english_problem_modification:针对问题的Base64编码bsdiff4补丁(若未更改则为null)。english_solution_modification:针对解答的Base64编码bsdiff4补丁(若未更改则为null)。english_has_cleaned:布尔值,指示样本是否被清洗。
数据分割
train:每种语言7,620个样本,在所有语言间平行。test:每种语言190个样本,在所有语言间平行。train_all:每种语言所有可用样本(数量因语言而异,范围从10,270到12,245)。asy:每种语言96个样本,包含特定问题集的独立分割,用于测试包含[asy]图表的问题。
语言统计
| 语言 | 代码 | train (平行) |
test (平行) |
train_all |
|---|---|---|---|---|
| 英语 | en | 7,620 | 190 | 12,245 |
| 德语 | de | 7,620 | 190 | 11,151 |
| 法语 | fr | 7,620 | 190 | 11,007 |
| 西班牙语 | es | 7,620 | 190 | 11,346 |
| 中文 | zh | 7,620 | 190 | 10,470 |
| 俄语 | ru | 7,620 | 190 | 11,237 |
| 日语 | ja | 7,620 | 190 | 10,376 |
| 泰语 | th | 7,620 | 190 | 11,104 |
| 葡萄牙语 | pt | 7,620 | 190 | 10,632 |
| 意大利语 | it | 7,620 | 190 | 10,646 |
| 韩语 | ko | 7,620 | 190 | 10,270 |
| 斯瓦希里语 | sw | 7,620 | 190 | 11,124 |
| 泰卢固语 | te | 7,620 | 190 | 10,964 |
| 孟加拉语 | bn | 7,620 | 190 | 11,082 |
数据集创建
源数据
源数据来自AceReason-Math,这是一个为RLVR训练整理的数学推理数据集。首先对原始英文数据进行了过滤和清洗,移除了问题陈述中已透露答案或包含对未提供图表的关键引用等有问题的样本,影响了约4%的原始数据。此外,还对约11%的样本进行了次要问题清洗。
翻译过程
翻译使用Claude Sonnet 4完成。采用了迭代方法,翻译根据预定义的评分标准进行LLM-as-a-Judge评级,若发现问题则进行重新翻译。翻译过程中对数字格式进行了本地化。
使用许可
本数据集采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,详细信息见 https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode.txt。
预期用途
mAceReason-Math数据集旨在供社区用于多语言大语言模型强化学习,可用于训练和评估。
发布日期
2026年3月
联系方式
Konstantin Dobler (konstantin.dobler@hpi.de) 和 Simon Lehnerer (simon.lehnerer@apple.com)。
引用
bibtex @misc{dobler2026macereasonmathdatasethighqualitymultilingual, title={mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR}, author={Konstantin Dobler and Simon Lehnerer and Federico Scozzafava and Jonathan Janke and Mohamed Ali}, year={2026}, eprint={2603.10767}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.10767}, }



