AMO-Bench
收藏github2025-10-31 更新2025-11-01 收录
下载链接:
https://github.com/meituan-longcat/AMO-Bench
下载链接
链接失效反馈官方服务:
资源简介:
AMO-Bench是一个高级数学推理基准,包含50道人工编写的问题,难度达到国际数学奥林匹克竞赛水平或更高。该基准旨在解决现有数学竞赛基准对顶级大型语言模型评估效果减弱的问题,所有问题都经过专家交叉验证确保难度,且均为原创问题以避免数据记忆导致的性能泄漏。每个问题只需要最终答案而非完整证明,支持自动和稳健的评分评估。
AMO-Bench is an advanced mathematical reasoning benchmark comprising 50 manually curated problems at or above the difficulty level of the International Mathematical Olympiad (IMO). This benchmark is designed to address the diminishing evaluation efficacy of existing mathematical competition benchmarks for state-of-the-art large language models. All problems have been cross-validated by experts to confirm their difficulty, and all are original to prevent performance leakage caused by data memorization. Each problem only requires a final answer rather than a complete proof, supporting automated and robust scoring evaluation.
创建时间:
2025-10-29
原始信息汇总
AMO-Bench 数据集概述
数据集简介
AMO-Bench是一个高级数学推理基准测试,包含50道人工编写的问题,难度达到奥林匹克竞赛级别或更高。
核心特征
- 原创性问题:所有问题均由专家全新编写,避免现有资源性能泄露
- 难度保证:每道问题经过多位专家严格交叉验证,确保至少达到国际数学奥林匹克竞赛难度标准
- 基于最终答案的评分:只需提供最终答案而非完整证明,支持高效自动评分
- 人工标注推理路径:每道问题包含专家编写的详细推理路径,增强解决方案透明度
评估结果
在26个大语言模型上的实验结果显示:
- 表现最佳模型准确率仅为52.4%
- 大多数大语言模型得分低于40%
快速开始
安装步骤
- 克隆代码库
- 安装依赖项
评估流程
- 格式化模型响应文件
- 运行评分脚本
- 可选:仅对基于解析器的子集进行评估
引用信息
bibtex @misc{an2025amobench, title={AMO-Bench: Large Language Models Still Struggle in High School Math Competitions}, author={Shengnan An and Xunliang Cai and Xuezhi Cao and Xiaoyu Li and Yehao Lin and Junlin Liu and Xinxuan Lv and Dan Ma and Xuanlin Wang and Ziwen Wang and Shuang Zhou}, year={2025}, eprint={2510.26768}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.26768}, }
许可证
本项目采用MIT许可证。
搜集汇总
数据集介绍

构建方式
在数学推理评估领域,AMO-Bench通过专家协作构建了具有国际数学奥林匹克竞赛难度的原创题目。为确保题目质量,研究团队邀请多位数学专家进行交叉验证,并采用大语言模型辅助筛选机制,排除对现有模型挑战性不足的题目。所有问题均经过二次验证,确认与现有竞赛题库及网络资源无高度相似性,有效避免了数据记忆导致的性能泄露问题。
特点
该数据集最显著的特征在于其题目均达到国际数学奥林匹克竞赛的难度标准,为评估顶尖大语言模型的数学推理能力设立了更高门槛。每道题目仅需提供最终答案的设计实现了自动化评分,同时配备专家撰写的问题解析路径,增强了解决方案的可解释性。这种设计既保证了评估效率,又为后续的提示工程和错误分析研究提供了丰富素材。
使用方法
使用该数据集时,研究者需将模型输出按指定JSON格式整理后存入响应文件目录。通过配置API密钥与评估接口,运行评分脚本即可自动完成模型性能评估。为满足不同研究需求,系统支持完整数据集评估与仅含解析器评分题目的子集评估两种模式,这种灵活设计使得研究者能够根据计算资源与实验目标自主选择评估范围。
背景与挑战
背景概述
随着大语言模型在数学推理任务上的性能逐渐饱和,传统高中数学竞赛数据集如AIME的评估效能日益减弱。AMO-Bench应运而生,由美团技术团队于2025年发布,聚焦于国际数学奥林匹克竞赛及以上难度的原创性问题构建。该数据集通过专家交叉验证机制确保题目难度,旨在精准评估顶尖模型在高级数学推理任务中的极限能力,为人工智能数学认知研究设立新的里程碑。
当前挑战
该数据集致力于解决高阶数学推理评估中的两大核心挑战:其一,传统竞赛题目因模型性能饱和导致区分度下降,需构建具备IMO级难度的原创问题;其二,数据构建过程中需平衡专家标注成本与题目独创性,通过多轮人工校验与LLM辅助筛选确保题目既无数据泄露风险,又能维持稳定的评估信度。
常用场景
经典使用场景
在数学推理能力评估领域,AMO-Bench作为高难度数学竞赛基准,主要用于测试大语言模型在奥林匹克数学级别问题上的表现。该数据集通过50道专家级原创题目,有效检验模型在复杂逻辑推导、抽象符号运算及多步骤问题解决等方面的能力,成为衡量前沿模型数学推理水平的重要标尺。
解决学术问题
该数据集解决了当前数学推理评估中存在的性能饱和与数据泄露问题。通过采用达到国际数学奥林匹克竞赛难度的原创题目,AMO-Bench突破了传统基准对顶尖模型的评估局限,为研究社区提供了更可靠的模型能力度量标准,推动数学推理领域向更高难度层次发展。
衍生相关工作
基于AMO-Bench的评估框架,研究者开发了多种创新方法。Math-Verify工具被整合用于答案解析验证,同时催生了针对高难度数学问题的提示工程技术。这些衍生工作共同构建起更完善的数学推理评估体系,持续推动着智能系统在复杂认知任务中的进步。
以上内容由遇见数据集搜集并总结生成



