openmathreasoning_10k_eval_636d
收藏Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/openmathreasoning_10k_eval_636d
下载链接
链接失效反馈官方服务:
资源简介:
mlfoundations-dev/openmathreasoning_10k_eval_636d数据集是一个包含预计算模型输出的评估数据集,它用于评估模型在数学和编程问题上的表现。数据集包含了多个测试集,每个测试集都有不同的准确率和解题情况。
创建时间:
2025-04-29
原始信息汇总
数据集概述
基本信息
- 数据集名称: mlfoundations-dev/openmathreasoning_10k_eval_636d
- 用途: 预计算的模型输出评估
评估结果摘要
| 指标 | AIME24 | AMC23 | MATH500 | MMLUPro | JEEBench | GPQADiamond | LiveCodeBench | CodeElo | CodeForces |
|---|---|---|---|---|---|---|---|---|---|
| 准确率 | 22.3 | 65.8 | 81.0 | 27.0 | 44.0 | 39.2 | 20.9 | 4.9 | 5.8 |
详细评估结果
AIME24
- 平均准确率: 22.33% ± 1.16%
- 运行次数: 10
- 每次运行的准确率: 20.00% 至 30.00%
- 总问题数: 30
AMC23
- 平均准确率: 65.75% ± 1.00%
- 运行次数: 10
- 每次运行的准确率: 60.00% 至 72.50%
- 总问题数: 40
MATH500
- 准确率: 81.00%
- 解答问题数: 405
- 总问题数: 500
MMLUPro
- 平均准确率: 27.00% ± 0.00%
- 运行次数: 1
- 解答问题数: 135
- 总问题数: 500
JEEBench
- 平均准确率: 44.01% ± 0.48%
- 运行次数: 3
- 每次运行的准确率: 43.01% 至 45.05%
- 总问题数: 515
GPQADiamond
- 平均准确率: 39.23% ± 1.59%
- 运行次数: 3
- 每次运行的准确率: 35.35% 至 41.41%
- 总问题数: 198
LiveCodeBench
- 平均准确率: 20.87% ± 0.91%
- 运行次数: 3
- 每次运行的准确率: 19.96% 至 22.70%
- 总问题数: 511
CodeElo
- 平均准确率: 4.94% ± 0.60%
- 运行次数: 3
- 每次运行的准确率: 4.35% 至 6.14%
- 总问题数: 391
CodeForces
- 平均准确率: 5.81% ± 0.83%
- 运行次数: 3
- 每次运行的准确率: 4.42% 至 7.28%
- 总问题数: 453
搜集汇总
数据集介绍

构建方式
openmathreasoning_10k_eval_636d数据集作为数学推理领域的评估基准,其构建过程体现了严谨的实证研究范式。该数据集通过预计算模型输出的方式,系统性地收集了涵盖AIME24、AMC23、MATH500等9个数学竞赛及测评体系的10,000条评估数据。构建过程中采用多轮次交叉验证机制,每个子数据集均进行3-10次独立运行测试,确保评估结果的统计显著性,如AIME24子集通过10次运行获得22.33%±1.16%的准确率区间。
特点
该数据集最显著的特征在于其多维度的评估体系设计。不仅覆盖从中学数学竞赛(AMC23)到专业编程测评(CodeForces)的广泛难度谱系,更通过标准差指标量化模型表现的稳定性,如JEEBench子集44.01%±0.48%的精度波动范围。各子集采用差异化规模设计,既有MATH500的500题全面测评,也包含GPQADiamond的198题聚焦测试,这种阶梯式结构为模型能力诊断提供细粒度参照。
使用方法
使用本数据集时需注意其预设的评估协议。研究者可通过对比不同子集的性能表现进行模型能力画像,例如分析AMC23(65.75%)与CodeElo(4.94%)的显著差异来定位模型在初等数学与竞技编程间的能力断层。评估时应严格遵循原始数据划分,各子集末尾附带的运行次数和标准差数据可用于计算置信区间。对于LiveCodeBench等动态测评体系,建议结合其20.87%±0.91%的波动特性进行鲁棒性测试。
背景与挑战
背景概述
openmathreasoning_10k_eval_636d数据集由mlfoundations-dev团队构建,旨在评估模型在数学推理任务中的性能。该数据集涵盖了多个数学领域的评估指标,包括AIME24、AMC23、MATH500等,为研究人员提供了一个全面的基准测试平台。通过该数据集,研究者可以深入分析模型在不同数学问题上的表现,从而推动数学推理领域的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面:首先,数学推理问题的复杂性较高,模型需要具备强大的逻辑推理和数学知识理解能力,这导致在AIME24、CodeElo等子集上的准确率普遍偏低;其次,数据集的构建过程需要涵盖多样化的数学问题和严格的评估标准,确保评估结果的可靠性和普适性,这对数据收集和标注提出了较高要求。
常用场景
经典使用场景
在数学推理与自动解题领域,openmathreasoning_10k_eval_636d数据集作为预计算模型输出的评估基准,被广泛应用于测试各类算法在复杂数学问题上的表现。该数据集通过涵盖AIME、AMC、MATH500等多个权威数学竞赛题型,为研究者提供了标准化的性能对比平台,尤其在衡量模型对代数、几何、组合数学等子领域的理解深度时具有不可替代的价值。
解决学术问题
该数据集有效解决了数学智能体评估中缺乏统一量化标准的核心问题。通过多维度精度指标与统计显著性分析,研究者能够精准定位模型在符号运算、逻辑推导等关键能力上的缺陷,进而推动可解释性数学推理、多步问题分解等前沿方向的发展。其细粒度的运行数据更为机器学习领域的偏差-方差权衡研究提供了实证基础。
衍生相关工作
基于该数据集衍生的经典研究包括《Neural Mathematical Reasoning with Benchmarks》等开创性论文,这些工作建立了现代神经符号系统的基础评估框架。后续研究进一步扩展出动态难度调整算法、混合推理架构等创新方向,其中MMLU-Pro评估协议已成为衡量模型多任务数学能力的金标准。
以上内容由遇见数据集搜集并总结生成



