openmathreasoning_0.3k_eval_636d

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/openmathreasoning_0.3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含预计算模型输出的评估数据集，用于数学推理任务。数据集包含了在不同数学任务上的评估结果，如AIME24、AMC23、MATH500等，提供了每个任务的准确率、解决的问题数量和总问题数量。

创建时间：

2025-04-29

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/openmathreasoning_0.3k_eval_636d
用途: 预计算的模型输出，用于评估。

评估结果

综合指标

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	16.7%	57.8%	74.8%	28.6%	41.5%	39.2%	23.9%	5.3%	6.1%

详细指标

AIME24

平均准确率: 16.67% ± 1.15%
运行次数: 10
每次运行准确率及解题数:
- 运行1: 13.33% (4/30)
- 运行2: 13.33% (4/30)
- 运行3: 16.67% (5/30)
- 运行4: 13.33% (4/30)
- 运行5: 13.33% (4/30)
- 运行6: 20.00% (6/30)
- 运行7: 13.33% (4/30)
- 运行8: 20.00% (6/30)
- 运行9: 20.00% (6/30)
- 运行10: 23.33% (7/30)

AMC23

平均准确率: 57.75% ± 1.98%
运行次数: 10
每次运行准确率及解题数:
- 运行1: 60.00% (24/40)
- 运行2: 72.50% (29/40)
- 运行3: 50.00% (20/40)
- 运行4: 62.50% (25/40)
- 运行5: 60.00% (24/40)
- 运行6: 52.50% (21/40)
- 运行7: 52.50% (21/40)
- 运行8: 57.50% (23/40)
- 运行9: 57.50% (23/40)
- 运行10: 52.50% (21/40)

MATH500

准确率: 74.80%
解题数: 374/500

MMLUPro

平均准确率: 28.60% ± 0.00%
运行次数: 1
每次运行准确率及解题数:
- 运行1: 28.60% (143/500)

JEEBench

平均准确率: 41.46% ± 0.65%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 41.60% (214.25/515)
- 运行2: 40.00% (206.0/515)
- 运行3: 42.77% (220.25/515)

GPQADiamond

平均准确率: 39.23% ± 3.45%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 39.39% (78/198)
- 运行2: 31.82% (63/198)
- 运行3: 46.46% (92/198)

LiveCodeBench

平均准确率: 23.94% ± 1.21%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 26.22% (134/511)
- 运行2: 23.48% (120/511)
- 运行3: 22.11% (113/511)

CodeElo

平均准确率: 5.29% ± 0.23%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 5.37% (21/391)
- 运行2: 5.63% (22/391)
- 运行3: 4.86% (19/391)

CodeForces

平均准确率: 6.11% ± 0.39%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 5.96% (27/453)
- 运行2: 5.52% (25/453)
- 运行3: 6.84% (31/453)

搜集汇总

数据集介绍

构建方式

在数学推理与代码生成领域，openmathreasoning_0.3k_eval_636d数据集通过系统化评估框架构建而成。该数据集整合了AIME24、AMC23、MATH500等九项权威数学及编程竞赛的测试题目，采用多轮次交叉验证方法，确保评估结果的统计显著性。每个子集均通过标准化流程采集，包含题目文本、参考答案及模型输出记录，形成结构化评估矩阵。

特点

该数据集最显著的特征在于其多维度的评估体系设计。覆盖从基础数学运算到高阶编程逻辑的广泛能力谱系，各子集精度指标呈现明显差异化分布，如MATH500达到74.8%而CodeElo仅5.29%。数据呈现方式兼具宏观统计量与微观运行记录，标准差数据揭示了模型表现的稳定性特征，为分析模型能力边界提供丰富维度。

使用方法

研究者可通过加载预计算的模型输出数据，直接进行横向性能对比分析。建议采用分层验证策略，先以MATH500等高分项检验基础推理能力，再通过CodeForces等低分项诊断特定弱点。数据集支持精度、标准差等多指标联合分析，运行记录级数据可用于错误模式归因研究，但需注意不同子集的题目数量差异对统计效力的影响。

背景与挑战

背景概述

openmathreasoning_0.3k_eval_636d数据集由mlfoundations-dev团队构建，旨在评估模型在数学推理任务中的表现。该数据集涵盖了多个数学领域的评估指标，包括AIME24、AMC23、MATH500等，反映了模型在不同难度和类型数学问题上的解决能力。其核心研究问题聚焦于提升模型在复杂数学推理任务中的准确性和泛化能力，为数学智能领域的研究提供了重要的基准测试工具。该数据集的创建进一步推动了数学推理模型的发展，并为相关领域的研究者提供了可靠的评估标准。

当前挑战

openmathreasoning_0.3k_eval_636d数据集面临的挑战主要体现在两个方面：其一，数学推理问题的多样性和复杂性对模型的泛化能力提出了较高要求，尤其是在高难度数学竞赛题（如AIME24和AMC23）上，模型的准确率普遍较低，表明现有模型在解决复杂数学问题时仍存在显著不足；其二，数据集的构建过程中，如何确保评估指标的全面性和代表性是一大挑战，需平衡不同数学领域和难度级别的问题分布，同时避免数据偏差对评估结果的影响。这些挑战为未来研究提供了改进方向。

常用场景

经典使用场景

在数学推理与自动解题领域，openmathreasoning_0.3k_eval_636d数据集被广泛用于评估模型在各类数学竞赛题目上的表现。该数据集涵盖了从基础数学到高级竞赛题目的多种类型，为研究者提供了一个标准化的测试平台。通过在不同难度和类型的数学题目上进行测试，研究者能够全面评估模型的数学推理能力和解题准确性。

解决学术问题

该数据集有效解决了数学自动推理领域中的模型评估难题。传统方法往往局限于单一题型或难度级别，而openmathreasoning_0.3k_eval_636d通过整合多样化的题目来源，如AIME、AMC、MATH500等，为研究者提供了一个全面的评估框架。这不仅有助于识别模型在不同数学领域的强弱项，还为改进数学推理算法提供了明确的方向。

衍生相关工作

围绕该数据集，研究者们开展了一系列经典工作，包括基于深度学习的数学推理模型、多任务学习框架以及题目难度预测算法。这些工作不仅提升了模型在数学题目上的表现，还推动了自动推理领域的技术进步。例如，一些研究利用该数据集开发了能够同时处理代数、几何和数论题目的通用模型，显著扩展了AI在数学领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集