e1_math_all_r1_10k_eval_5554

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/e1_math_all_r1_10k_eval_5554

下载链接

链接失效反馈

官方服务：

资源简介：

mlfoundations-dev/e1_math_all_r1_10k_eval_5554数据集包含了预计算的数学和编程竞赛模型评估输出，包括AIME24、AMC23等多个竞赛的准确率评估数据。

创建时间：

2025-05-25

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/e1_math_all_r1_10k_eval_5554
用途: 预计算的模型输出评估结果

评估结果

综合指标

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces	HLE	HMMT	AIME25	LiveCodeBenchv5
准确率	25.7	65.5	82.4	39.8	47.4	48.3	26.2	7.5	9.1	12.6	16.7	20.7	18.0

详细评估

AIME24

平均准确率: 25.67% ± 1.42%
运行次数: 10
详细运行数据:
- 每轮运行准确率在16.67%至30.00%之间
- 每轮解答问题数在5至9之间（总问题数30）

AMC23

平均准确率: 65.50% ± 1.83%
运行次数: 10
详细运行数据:
- 每轮运行准确率在52.50%至72.50%之间
- 每轮解答问题数在21至29之间（总问题数40）

MATH500

准确率: 82.40%
解答问题数: 412（总问题数500）

MMLUPro

准确率: 39.80%

JEEBench

平均准确率: 47.41% ± 0.80%
运行次数: 3
详细运行数据:
- 每轮运行准确率在45.49%至48.64%之间
- 每轮解答问题数在234.25至250.5之间（总问题数515）

GPQADiamond

平均准确率: 48.32% ± 1.13%
运行次数: 3
详细运行数据:
- 每轮运行准确率在46.46%至51.01%之间
- 每轮解答问题数在92至101之间（总问题数198）

LiveCodeBench

平均准确率: 26.22% ± 0.34%
运行次数: 3
详细运行数据:
- 每轮运行准确率在25.64%至26.81%之间
- 每轮解答问题数在131至137之间（总问题数511）

CodeElo

平均准确率: 7.50% ± 0.47%
运行次数: 3
详细运行数据:
- 每轮运行准确率在6.91%至8.44%之间
- 每轮解答问题数在27至33之间（总问题数391）

CodeForces

平均准确率: 9.05% ± 0.38%
运行次数: 3
详细运行数据:
- 每轮运行准确率在8.39%至9.71%之间
- 每轮解答问题数在38至44之间（总问题数453）

HLE

平均准确率: 12.61% ± 0.92%
运行次数: 3
详细运行数据:
- 每轮运行准确率在11.11%至14.81%之间
- 每轮解答问题数在57至76之间（总问题数513）

HMMT

平均准确率: 16.67% ± 1.76%
运行次数: 10
详细运行数据:
- 每轮运行准确率在6.67%至23.33%之间
- 每轮解答问题数在2至7之间（总问题数30）

AIME25

平均准确率: 20.67% ± 1.32%
运行次数: 10
详细运行数据:
- 每轮运行准确率在16.67%至26.67%之间
- 每轮解答问题数在5至8之间（总问题数30）

LiveCodeBenchv5

平均准确率: 17.98% ± 0.45%
运行次数: 3
详细运行数据:
- 每轮运行准确率在17.07%至18.43%之间
- 每轮解答问题数在63至68之间（总问题数369）

搜集汇总

数据集介绍

构建方式

在数学与编程能力评估领域，该数据集通过系统整合多个权威基准测试构建而成，涵盖AIME、AMC、MATH500等数学竞赛题库以及LiveCodeBench、CodeForces等编程评测平台。构建过程中采用预计算模型输出的方式，对每个子数据集进行多轮次评估运行，确保结果的统计稳定性。数据采集严格遵循原始题库的命题规范和评分标准，通过标准化流程将不同来源的题目转化为统一的评估格式。

使用方法

研究人员可借助该数据集进行大规模语言模型的综合能力基准测试，通过对比各子数据集的性能表现分析模型特长与短板。使用时应关注多轮次评估结果的标准差指标，结合统计显著性分析方法确保结论可靠性。对于数学类子集，可深入分析模型在代数、几何等细分领域的表现差异；编程类子集则需考察代码正确性、算法复杂度等维度。建议采用交叉验证方法将本数据集与其他评估工具结合使用，以构建更全面的模型能力图谱。

背景与挑战

背景概述

在人工智能与数学推理交叉领域的研究中，e1_math_all_r1_10k_eval_5554数据集由mlfoundations-dev团队构建，旨在系统评估大型语言模型在复杂数学问题求解方面的能力。该数据集整合了AIME、AMC、MATH500等多个权威数学竞赛与基准测试题目，覆盖从中学到竞赛级别的数学知识范畴。其核心研究问题聚焦于提升模型在多层次数学推理任务中的泛化性能与准确性，为数学智能的发展提供了关键的数据支撑。

当前挑战

该数据集所解决的领域挑战在于数学问题求解对逻辑严谨性与符号推理的高要求，现有模型在高级数学竞赛题目中表现参差，如AIME24准确率仅25.7%，揭示模型对抽象概念与多步推导的适应不足。构建过程中的挑战涉及题目来源的多样性与难度平衡，需确保不同子集（如CodeElo与HMMT）的评估一致性，同时处理题目格式标准化与答案验证的复杂性，以维持评估结果的可靠性。

常用场景

经典使用场景

在数学推理与代码生成领域，该数据集作为预计算模型输出的评估基准，广泛应用于衡量大型语言模型在复杂问题求解中的表现。其经典使用场景包括对模型在AIME、AMC等数学竞赛题目上的准确性测试，以及LiveCodeBench等编程挑战中的代码生成能力评估。通过多轮运行和统计平均精度，该数据集为研究者提供了稳定可靠的性能对比框架，助力模型优化与迭代。

解决学术问题

该数据集有效解决了人工智能领域中对模型泛化能力与专业领域适应性量化评估的学术难题。通过整合数学奥林匹克竞赛、大学入学考试及编程评测等多维度任务，它为研究社区提供了统一的性能度量标准，显著推进了模型在复杂逻辑推理、符号运算及代码合成等核心能力上的研究进展。其结构化输出结果有助于揭示模型在跨任务迁移中的潜力与局限，为理论创新提供数据支撑。

实际应用

在实际应用层面，该数据集为教育科技与自动化编程工具的开发提供了关键验证依据。例如，基于其评估结果的模型可应用于智能辅导系统，为学生提供个性化数学解题指导；在软件工程领域，高精度代码生成模型能辅助开发者完成重复性编程任务。数据集涵盖的JEEBench、GPQADiamond等现实场景题目，确保了模型评估与实际需求的高度对齐，推动技术落地转化。

数据集最近研究