c1_math_nod_4s_1k_eval_636d

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/c1_math_nod_4s_1k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含预计算模型输出的数学和编程评估数据集，用于测试模型在多个数学和编程测试集上的表现，包括AIME24、AMC23、MATH500等。

This is a mathematical and programming evaluation dataset containing pre-computed model outputs, intended to assess model performance across multiple mathematical and programming test datasets including AIME24, AMC23, MATH500, and others.

创建时间：

2025-04-28

原始信息汇总

数据集概述：mlfoundations-dev/c1_math_nod_4s_1k_eval_636d

数据集简介

用途：预计算的模型输出，用于评估。

评估结果

综合评估

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率 (%)	23.0	58.8	78.2	28.0	45.8	36.2	23.4	4.2	4.9

详细评估结果

AIME24

平均准确率：23.00% ± 1.10%
运行次数：10
详细数据：

运行准确率已解决问题数总问题数

1 16.67% 5 30

2 23.33% 7 30

... ... ... ...

AMC23

平均准确率：58.75% ± 1.51%
运行次数：10
详细数据：

运行准确率已解决问题数总问题数

1 60.00% 24 40

2 65.00% 26 40

... ... ... ...

MATH500

准确率：78.20%
详细数据：

准确率已解决问题数总问题数

78.20% 391 500

MMLUPro

平均准确率：28.00% ± 0.00%
运行次数：1
详细数据：

运行准确率已解决问题数总问题数

1 28.00% 140 500

JEEBench

平均准确率：45.78% ± 0.62%
运行次数：3
详细数据：

运行准确率已解决问题数总问题数

1 44.56% 229.5 515

2 45.58% 234.75 515

3 47.18% 243.0 515

GPQADiamond

平均准确率：36.20% ± 1.31%
运行次数：3
详细数据：

运行准确率已解决问题数总问题数

1 34.34% 68 198

2 34.85% 69 198

3 39.39% 78 198

LiveCodeBench

平均准确率：23.42% ± 0.33%
运行次数：3
详细数据：

运行准确率已解决问题数总问题数

1 23.09% 118 511

2 24.07% 123 511

3 23.09% 118 511

CodeElo

平均准确率：4.18% ± 0.60%
运行次数：3
详细数据：

运行准确率已解决问题数总问题数

1 3.58% 14 391

2 3.58% 14 391

3 5.37% 21 391

CodeForces

平均准确率：4.93% ± 0.27%
运行次数：3
详细数据：

运行准确率已解决问题数总问题数

1 4.42% 20 453

2 5.08% 23 453

3 5.30% 24 453

搜集汇总

数据集介绍

构建方式

在数学与计算机科学交叉领域的研究中，c1_math_nod_4s_1k_eval_636d数据集通过系统性采集多维度评估指标构建而成。该数据集整合了AIME24、AMC23、MATH500等九项权威数学竞赛及编程评测数据，采用多次运行取均值的方式确保统计稳定性，其中MATH500以单次全量评测保证数据完整性，其余项目通过3-10次独立运行计算置信区间。

特点

该数据集展现出显著的学科覆盖广度与评测深度，其核心价值体现在多元化的评估维度设计上。从数学竞赛到编程能力测试，各子集均采用标准化精度指标，并标注标准差以反映模型稳定性。特别值得注意的是，数据集在MATH500子集达到78.2%的优异精度，同时在CodeElo等编程评估中保持严谨的低分基准，这种差异化表现为模型能力评估提供了立体化的参照系。

使用方法

研究者可通过该数据集进行跨学科模型性能的基准测试，每个子集均包含详细的运行记录与统计摘要。使用时应关注不同评估项目的特性差异，如AIME24采用30题循环测试机制，而MMLUPro则基于500题的单一评估。对于需要稳定性验证的研究，建议优先选用包含多次运行数据的子集，利用提供的标准差数据进行鲁棒性分析。

背景与挑战

背景概述

数据集c1_math_nod_4s_1k_eval_636d由mlfoundations-dev团队构建，旨在为数学和编程领域的模型评估提供预计算输出结果。该数据集涵盖了多个权威测试平台，包括AIME24、AMC23、MATH500等，专注于评估模型在复杂数学问题求解和编程任务中的性能。其构建背景源于当前人工智能在STEM领域应用需求的增长，特别是在自动解题和代码生成方面的技术突破需求。通过整合多源异构的评估指标，该数据集为研究者提供了全面衡量模型能力的基准工具。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域层面，数学和编程问题的解决需要模型具备多步推理、符号运算和算法设计等高级认知能力，当前模型的平均准确率在23%至78%之间波动，反映出这类任务对AI系统的严峻挑战。在数据构建方面，不同评估标准（如AIME24的竞赛题与CodeForces的编程题）的异构性导致指标统一困难，且高精度标注需要领域专家参与，显著增加了数据集的构建成本。此外，动态更新的竞赛题库要求数据集持续迭代以保持评估效度。

常用场景

经典使用场景

在数学与计算机科学交叉领域的研究中，c1_math_nod_4s_1k_eval_636d数据集被广泛用于评估模型在复杂数学问题求解和编程任务中的性能。该数据集通过涵盖AIME24、AMC23、MATH500等多个标准化数学测试，为研究者提供了一个全面的基准测试平台。特别是在模型泛化能力和多步推理能力的评估中，该数据集展现了其独特的价值。

实际应用

在教育科技和智能辅导系统开发中，该数据集的实际应用价值显著。基于其构建的评估体系可精准诊断AI模型在不同难度数学问题中的表现差异，为自适应学习系统的算法优化提供数据支持。同时，在编程教育领域，该数据集帮助开发者检验代码生成模型解决实际竞赛题目的能力，推动智能化编程辅助工具的迭代升级。

衍生相关工作

围绕该数据集已衍生出多项重要研究工作，包括基于MATH500基准的数学推理模型优化框架，以及整合LiveCodeBench和CodeForces指标的编程能力评估体系。这些工作显著拓展了AI模型在STEM教育中的应用场景，其中部分成果已被转化为开源工具库，持续推动着智能教育评估技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

运行	准确率	已解决问题数	总问题数
1	16.67%	5	30
2	23.33%	7	30
...	...	...	...

运行	准确率	已解决问题数	总问题数
1	60.00%	24	40
2	65.00%	26	40
...	...	...	...

运行	准确率	已解决问题数	总问题数
1	44.56%	229.5	515
2	45.58%	234.75	515
3	47.18%	243.0	515

运行	准确率	已解决问题数	总问题数
1	34.34%	68	198
2	34.85%	69	198
3	39.39%	78	198