e1_math_all_r1_3k_eval_5554
收藏Hugging Face2025-05-25 更新2025-05-26 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/e1_math_all_r1_3k_eval_5554
下载链接
链接失效反馈官方服务:
资源简介:
mlfoundations-dev/e1_math_all_r1_3k_eval_5554是一个包含不同数学竞赛问题的预计算模型输出结果的数据集,用于评估模型在数学问题上的表现。数据集包含了AIME24、AMC23、MATH500等多个数学竞赛的数据,提供了准确率、解决的问题数和总问题数等详细信息。
创建时间:
2025-05-25
原始信息汇总
数据集概述
基本信息
- 数据集名称: mlfoundations-dev/e1_math_all_r1_3k_eval_5554
- 用途: 预计算模型输出用于评估
评估结果
总体性能
| 指标 | AIME24 | AMC23 | MATH500 | MMLUPro | JEEBench | GPQADiamond | LiveCodeBench | CodeElo | CodeForces | HLE | HMMT | AIME25 | LiveCodeBenchv5 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 准确率 | 23.0 | 66.0 | 81.2 | 31.7 | 47.7 | 44.9 | 25.6 | 6.6 | 9.1 | 13.6 | 10.3 | 19.7 | 17.9 |
详细评估
AIME24
- 平均准确率: 23.00% ± 1.45%
- 运行次数: 10
- 详细运行数据: 包含10次运行的准确率、解答问题数和总问题数
AMC23
- 平均准确率: 66.00% ± 1.67%
- 运行次数: 10
- 详细运行数据: 包含10次运行的准确率、解答问题数和总问题数
MATH500
- 准确率: 81.20%
- 解答问题数: 406
- 总问题数: 500
MMLUPro
- 准确率: 31.75%
JEEBench
- 平均准确率: 47.67% ± 0.47%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
GPQADiamond
- 平均准确率: 44.95% ± 1.72%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
LiveCodeBench
- 平均准确率: 25.57% ± 0.28%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
CodeElo
- 平均准确率: 6.56% ± 0.47%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
CodeForces
- 平均准确率: 9.05% ± 0.00%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
HLE
- 平均准确率: 13.65% ± 0.33%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
HMMT
- 平均准确率: 10.33% ± 0.88%
- 运行次数: 10
- 详细运行数据: 包含10次运行的准确率、解答问题数和总问题数
AIME25
- 平均准确率: 19.67% ± 1.60%
- 运行次数: 10
- 详细运行数据: 包含10次运行的准确率、解答问题数和总问题数
LiveCodeBenchv5
- 平均准确率: 17.89% ± 0.95%
- 运行次数: 3
- 详细运行数据: 包含3次运行的准确率、解答问题数和总问题数
搜集汇总
数据集介绍

构建方式
在数学推理与代码生成领域的评估框架中,该数据集通过预计算模型输出的方式构建,涵盖了AIME、AMC、MATH500等多个权威数学竞赛及MMLUPro、LiveCodeBench等综合性基准。构建过程采用多轮运行策略,每次运行均记录准确率及解题数量,确保评估结果的统计稳健性。数据集整合了不同难度层级的题目,从基础数学问题到高难度竞赛试题,形成了层次分明的评估体系。
特点
该数据集的核心特征在于其广泛的覆盖范围与细粒度的性能指标。评估维度横跨数学推理、代码生成与综合知识理解,包含AIME24、AMC23等竞赛数据及LiveCodeBench等编程基准。每个子集均提供平均准确率、标准差及多次运行的详细分项结果,如AIME24的10次运行准确率波动在10%至26.67%之间。这种设计既能反映模型在不同任务中的稳定性,又支持跨领域性能的对比分析。
使用方法
使用该数据集时,研究者可通过加载预计算的模型输出结果,直接对比各基准下的性能表现。例如,针对数学推理任务可重点关注MATH500(81.20%准确率)与AMC23(66.00%)数据,而代码能力评估则可参考CodeForces(9.05%)与LiveCodeBench(25.57%)指标。数据集支持分运行次数统计分析,如HMMT的10次运行结果可用于计算误差范围,同时可通过横向对比AIME24(23.00%)与AIME25(19.67%)数据观察模型在时序任务上的表现差异。
背景与挑战
背景概述
在人工智能领域,数学推理能力被视为衡量模型智能水平的关键指标。e1_math_all_r1_3k_eval_5554数据集由mlfoundations-dev团队构建,旨在系统评估大型语言模型在复杂数学问题求解中的表现。该数据集整合了AIME、AMC、MATH500等多个权威数学竞赛和基准测试题目,覆盖从中学到竞赛级别的数学知识,反映了当前模型在逻辑推理、符号运算及多步骤问题解决方面的能力边界。其创建顺应了数学智能评估标准化需求,为模型优化提供了重要参照。
当前挑战
该数据集核心挑战在于数学问题本身的高度结构化与抽象性,要求模型具备严格的逻辑链推导和符号处理能力。例如在AIME24中模型准确率仅23%,暴露出对高难度竞赛题目的适应性不足。构建过程中需协调多源异构题目格式的统一化,确保评估指标的科学性与可比性;同时,数学表达式的精确解析与答案标准化也增加了数据清洗的复杂度,需平衡题目多样性与评估一致性间的矛盾。
常用场景
经典使用场景
在数学与编程智能评估领域,e1_math_all_r1_3k_eval_5554数据集作为预计算模型输出的基准测试工具,广泛应用于衡量大型语言模型在复杂推理任务中的表现。该数据集覆盖了从中学数学竞赛到高级编程挑战的多样化题目,例如AIME、AMC和CodeForces等权威评测平台,为研究者提供了标准化的性能对比框架。通过多次运行取平均值的评估方式,它有效减少了随机性干扰,成为模型能力验证的核心基础设施。
实际应用
在实际应用中,该数据集为教育科技与自动化编程工具的开发提供了关键支持。例如,在线学习平台可基于其评估结果定制个性化数学辅导系统,而代码辅助工具则能通过LiveCodeBench等模块优化实时编程建议的准确性。工业界亦借助该数据集筛选具备强推理能力的AI模型,用于金融分析、工程计算等需要高精度逻辑验证的场景,显著提升了智能系统的实用价值与可靠性。
衍生相关工作
围绕该数据集衍生的经典工作包括多模态推理模型的对比研究,如基于JEEBench和GPQADiamond结果的学科交叉能力分析。诸多研究通过整合其评估框架,开发了新型模型架构优化策略,例如针对HMMT低准确率问题的动态推理机制改进。此外,该数据集还催生了CodeElo等编程能力评估体系的标准化研究,为AI竞赛排名与模型能力等级划分提供了理论基石。
以上内容由遇见数据集搜集并总结生成



