e1_math_all_r1_3k_eval_5554

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/e1_math_all_r1_3k_eval_5554

下载链接

链接失效反馈

官方服务：

资源简介：

mlfoundations-dev/e1_math_all_r1_3k_eval_5554是一个包含不同数学竞赛问题的预计算模型输出结果的数据集，用于评估模型在数学问题上的表现。数据集包含了AIME24、AMC23、MATH500等多个数学竞赛的数据，提供了准确率、解决的问题数和总问题数等详细信息。

创建时间：

2025-05-25

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/e1_math_all_r1_3k_eval_5554
用途: 预计算模型输出用于评估

评估结果

总体性能

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces	HLE	HMMT	AIME25	LiveCodeBenchv5
准确率	23.0	66.0	81.2	31.7	47.7	44.9	25.6	6.6	9.1	13.6	10.3	19.7	17.9

详细评估

AIME24

平均准确率: 23.00% ± 1.45%
运行次数: 10
详细运行数据: 包含10次运行的准确率、解答问题数和总问题数

AMC23

平均准确率: 66.00% ± 1.67%
运行次数: 10
详细运行数据: 包含10次运行的准确率、解答问题数和总问题数

MATH500

准确率: 81.20%
解答问题数: 406
总问题数: 500

MMLUPro

准确率: 31.75%

JEEBench

平均准确率: 47.67% ± 0.47%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

GPQADiamond

平均准确率: 44.95% ± 1.72%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

LiveCodeBench

平均准确率: 25.57% ± 0.28%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

CodeElo

平均准确率: 6.56% ± 0.47%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

CodeForces

平均准确率: 9.05% ± 0.00%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

HLE

平均准确率: 13.65% ± 0.33%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

HMMT

平均准确率: 10.33% ± 0.88%
运行次数: 10
详细运行数据: 包含10次运行的准确率、解答问题数和总问题数

AIME25

平均准确率: 19.67% ± 1.60%
运行次数: 10
详细运行数据: 包含10次运行的准确率、解答问题数和总问题数

LiveCodeBenchv5

平均准确率: 17.89% ± 0.95%
运行次数: 3
详细运行数据: 包含3次运行的准确率、解答问题数和总问题数

搜集汇总

数据集介绍

构建方式

在数学推理与代码生成领域的评估框架中，该数据集通过预计算模型输出的方式构建，涵盖了AIME、AMC、MATH500等多个权威数学竞赛及MMLUPro、LiveCodeBench等综合性基准。构建过程采用多轮运行策略，每次运行均记录准确率及解题数量，确保评估结果的统计稳健性。数据集整合了不同难度层级的题目，从基础数学问题到高难度竞赛试题，形成了层次分明的评估体系。

特点

该数据集的核心特征在于其广泛的覆盖范围与细粒度的性能指标。评估维度横跨数学推理、代码生成与综合知识理解，包含AIME24、AMC23等竞赛数据及LiveCodeBench等编程基准。每个子集均提供平均准确率、标准差及多次运行的详细分项结果，如AIME24的10次运行准确率波动在10%至26.67%之间。这种设计既能反映模型在不同任务中的稳定性，又支持跨领域性能的对比分析。

使用方法

使用该数据集时，研究者可通过加载预计算的模型输出结果，直接对比各基准下的性能表现。例如，针对数学推理任务可重点关注MATH500（81.20%准确率）与AMC23（66.00%）数据，而代码能力评估则可参考CodeForces（9.05%）与LiveCodeBench（25.57%）指标。数据集支持分运行次数统计分析，如HMMT的10次运行结果可用于计算误差范围，同时可通过横向对比AIME24（23.00%）与AIME25（19.67%）数据观察模型在时序任务上的表现差异。

背景与挑战

背景概述

在人工智能领域，数学推理能力被视为衡量模型智能水平的关键指标。e1_math_all_r1_3k_eval_5554数据集由mlfoundations-dev团队构建，旨在系统评估大型语言模型在复杂数学问题求解中的表现。该数据集整合了AIME、AMC、MATH500等多个权威数学竞赛和基准测试题目，覆盖从中学到竞赛级别的数学知识，反映了当前模型在逻辑推理、符号运算及多步骤问题解决方面的能力边界。其创建顺应了数学智能评估标准化需求，为模型优化提供了重要参照。

当前挑战

该数据集核心挑战在于数学问题本身的高度结构化与抽象性，要求模型具备严格的逻辑链推导和符号处理能力。例如在AIME24中模型准确率仅23%，暴露出对高难度竞赛题目的适应性不足。构建过程中需协调多源异构题目格式的统一化，确保评估指标的科学性与可比性；同时，数学表达式的精确解析与答案标准化也增加了数据清洗的复杂度，需平衡题目多样性与评估一致性间的矛盾。

常用场景

经典使用场景

在数学与编程智能评估领域，e1_math_all_r1_3k_eval_5554数据集作为预计算模型输出的基准测试工具，广泛应用于衡量大型语言模型在复杂推理任务中的表现。该数据集覆盖了从中学数学竞赛到高级编程挑战的多样化题目，例如AIME、AMC和CodeForces等权威评测平台，为研究者提供了标准化的性能对比框架。通过多次运行取平均值的评估方式，它有效减少了随机性干扰，成为模型能力验证的核心基础设施。

实际应用

在实际应用中，该数据集为教育科技与自动化编程工具的开发提供了关键支持。例如，在线学习平台可基于其评估结果定制个性化数学辅导系统，而代码辅助工具则能通过LiveCodeBench等模块优化实时编程建议的准确性。工业界亦借助该数据集筛选具备强推理能力的AI模型，用于金融分析、工程计算等需要高精度逻辑验证的场景，显著提升了智能系统的实用价值与可靠性。

衍生相关工作

围绕该数据集衍生的经典工作包括多模态推理模型的对比研究，如基于JEEBench和GPQADiamond结果的学科交叉能力分析。诸多研究通过整合其评估框架，开发了新型模型架构优化策略，例如针对HMMT低准确率问题的动态推理机制改进。此外，该数据集还催生了CodeElo等编程能力评估体系的标准化研究，为AI竞赛排名与模型能力等级划分提供了理论基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集