five

Omni-MATH-2

收藏
Hugging Face2026-01-28 更新2026-01-29 收录
下载链接:
https://huggingface.co/datasets/martheballon/Omni-MATH-2
下载链接
链接失效反馈
官方服务:
资源简介:
Omni-MATH-2 是一个经过人工修订的数学数据集,旨在改进原始 Omni-MATH 数据集的质量。该数据集保留了原始数据集的规模(n = 4,428),同时显著提高了 LaTeX 可编译性、可解性和可验证性。其中,647 个问题(14.6%)被编辑,247 个问题(5.6%)被标记为非标准问题(包含图像、要求估计或证明,或是退化问题等)。数据集发布了多个评估就绪的子集,特别是 Omni-MATH-2-Filtered(n = 4,181),其中排除了标记为非标准的问题,以确保适合判断精确答案。该数据集适用于大型语言模型(LLM)的数学能力评估和基准测试。
创建时间:
2026-01-26
原始信息汇总

Omni-MATH-2 数据集概述

基本信息

  • 数据集名称:Omni-MATH-2
  • 许可证:MIT
  • 主要语言:英语
  • 标签:数学、奥林匹克竞赛
  • 数据规模:1K < n < 10K(具体为 4,428 个问题)

数据集描述

Omni-MATH-2 是原始 Omni-MATH 数据集的手动修订版本。该修订旨在提升数据集在评估大型语言模型时的有效性,同时保持了原始数据集的规模(n = 4,428)。修订工作显著改善了问题的 LaTeX 可编译性、可解性和可验证性。

修订详情

  • 编辑问题数量:647 个(占总数的 14.6%)
  • 标记为非标准问题数量:247 个(占总数的 5.6%)
  • 非标准问题定义:包含图像、要求估算或证明、或是退化问题(例如重复、无参考答案、空问题等)。

数据子集

提供了一个评估就绪的子集:

  • Omni-MATH-2-Filtered:包含 4,181 个问题。该子集已排除标记为非标准的问题,以确保其适用于判断精确答案。

使用方式

可通过 datasets 库加载数据集: python from datasets import load_dataset dataset = load_dataset("martheballon/Omni-MATH-2")

相关资源

  • 论文:https://arxiv.org/abs/2601.19532
  • GitHub 仓库:https://github.com/MartheBallon/Benchmarks-saturate-when-the-model-gets-smarter-than-the-judge
  • 清理过程示意图:https://huggingface.co/datasets/martheballon/Omni-MATH-2/resolve/main/Cleaning.png

引用信息

如果使用本数据集,请引用相关论文:

@misc{ballon2026benchmarkssaturatewhen, title={Benchmarks Saturate When The Model Becomes Smarter Than The Judge}, author={Ballon, Marthe and Algaba, Andres and Verbeken, Brecht and Ginis, Vincent}, year={2026}, eprint={2601.19532}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2601.19532}, }

致谢

感谢原始 Omni-MATH 数据集的作者和贡献者。他们发布的基准和验证器 Omni-Judge 为本论文的分析提供了支持。

@misc{gao2024omnimathuniversalolympiadlevel, title={Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models}, author={Bofei Gao and Feifan Song and Zhe Yang and Zefan Cai and Yibo Miao and Qingxiu Dong and Lei Li and Chenghao Ma and Liang Chen and Runxin Xu and Zhengyang Tang and Benyou Wang and Daoguang Zan and Shanghaoran Quan and Ge Zhang and Lei Sha and Yichang Zhang and Xuancheng Ren and Tianyu Liu and Baobao Chang}, year={2024}, eprint={2410.07985}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.07985}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在数学推理领域,基准数据集对于评估大型语言模型的性能至关重要。Omni-MATH-2数据集基于原始Omni-MATH数据集进行人工修订,保留了原有规模(共4,428个问题),同时显著提升了LaTeX可编译性、问题可解性以及答案可验证性。修订过程中,编辑了647个问题(占比14.6%),并将247个问题标记为非标准问题(占比5.6%),这些非标准问题包含图像、要求估计或证明,或是存在退化情况(如重复、无参考答案、问题为空等)。通过这一精细化的清理流程,生成了多个评估就绪的子集,特别是过滤后的Omni-MATH-2-Filtered(包含4,181个问题),排除了非标准问题以确保适用于精确答案的评判。
特点
该数据集的核心特点在于其高质量与严谨性。通过手动修订,数据集在保持原有奥林匹克数学问题多样性的同时,解决了原始数据集中存在的LaTeX编译错误、问题表述模糊以及答案验证困难等缺陷。特别值得注意的是,数据集明确区分了标准与非标准问题,并提供了过滤后的子集,使得研究者能够根据评估需求灵活选择。这种设计不仅增强了数据集的可靠性,也为模型性能的准确衡量提供了坚实基础,避免了因数据质量问题导致的评估偏差。
使用方法
研究者可通过Hugging Face的datasets库便捷地加载并使用该数据集。使用Python代码`load_dataset("martheballon/Omni-MATH-2")`即可获取完整数据集,进而访问其不同子集进行模型评估。在具体应用中,建议根据研究目标选择合适的数据子集,例如,若需进行精确答案匹配的评估,可优先采用Omni-MATH-2-Filtered子集。数据集的结构化设计便于集成到现有的评估框架中,为数学推理能力的量化分析提供支持。
背景与挑战
背景概述
在人工智能领域,数学推理能力是评估大型语言模型智能水平的关键维度之一。Omni-MATH-2数据集由Marthe Ballon等研究人员于2026年构建,作为原始Omni-MATH数据集的修订版本,旨在解决基准评测中因数据质量问题导致的评估偏差。该数据集聚焦于奥林匹克级别的数学问题,核心研究问题在于如何通过人工修订提升问题的可编译性、可解性与可验证性,从而为模型数学推理能力的精准评测提供可靠依据。其发布进一步推动了数学推理基准向更高严谨性与实用性的演进,对相关领域的研究具有重要参考价值。
当前挑战
该数据集致力于应对数学推理基准评测中的核心挑战:原始数据集中存在的LaTeX编译错误、问题表述模糊以及答案验证困难等问题,严重影响了评估的准确性与可靠性。在构建过程中,研究团队面临着手动修订大量问题所带来的繁重工作量,需在保持数据集规模的同时,精准识别并修正问题文本与答案格式,并妥善处理包含图像、要求证明或估计等非标准问题,以确保最终数据集的纯净度与评测适用性。
常用场景
经典使用场景
在数学推理与大型语言模型评估领域,Omni-MATH-2数据集作为一项经过人工修订的高质量基准,主要应用于精确评估模型在奥林匹克级别数学问题上的求解能力。该数据集通过筛选和修正,确保了问题的LaTeX可编译性、可解性与可验证性,为研究者提供了一个稳定可靠的测试平台,用以衡量模型在复杂数学推理任务中的表现。
衍生相关工作
围绕Omni-MATH-2数据集,衍生了一系列关注基准饱和与评估方法改进的研究。例如,相关论文探讨了当模型智能超越评估者时基准的局限性,并提出了数据清洗与验证的新方法。这些工作进一步促进了数学推理评估领域的理论发展与实践创新。
数据集最近研究
最新研究方向
在数学推理与大型语言模型评估领域,数据集的精确性与可靠性日益成为研究焦点。Omni-MATH-2作为原始Omni-MATH数据集的修订版本,通过人工校对显著提升了LaTeX可编译性、问题可解性及答案可验证性,为模型性能评估提供了更坚实的基准。当前前沿研究围绕如何构建抗饱和的评估体系展开,重点关注非标准问题的识别与处理,例如包含图像、要求证明或估计的题目,这些挑战促使学界重新审视评估协议的设计。该数据集的发布推动了数学奥林匹克级别问题上的模型能力测评,同时引发了关于基准测试在模型智能超越评判标准时如何保持有效性的深度讨论,为未来评估方法的革新提供了关键实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作