OpenReasoning-Nemotron-7B_eval_8179

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/OpenReasoning-Nemotron-7B_eval_8179

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了在不同推理和编码任务上的预计算模型输出，用于评估。这些任务包括AIME24、AMC23、MATH500、JEEBench、GPQADiamond、LiveCodeBench、CodeElo、AIME25、HLE、LiveCodeBenchv5和HMMT等。数据集中提供了每个任务的多轮运行结果和平均准确度。

创建时间：

2025-07-19

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/OpenReasoning-Nemotron-7B_eval_8179
用途: 预计算的模型输出，用于评估。

评估结果

总体指标

指标	AIME24	AMC23	MATH500	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces	AIME25	HLE	LiveCodeBenchv5	HMMT
准确率	79.0	98.8	89.0	81.7	60.1	62.5	50.6	46.8	68.7	13.3	49.6	59.7

详细评估结果

AIME24

平均准确率: 79.00% ± 1.42%
运行次数: 10

详细数据:

运行	准确率	已解决问题数	总问题数
1	70.00%	21	30
2	80.00%	24	30
3	80.00%	24	30
4	80.00%	24	30
5	86.67%	26	30
6	76.67%	23	30
7	80.00%	24	30
8	80.00%	24	30
9	83.33%	25	30
10	73.33%	22	30

AMC23

平均准确率: 98.75% ± 0.53%
运行次数: 10

详细数据:

运行	准确率	已解决问题数	总问题数
1	97.50%	39	40
2	95.00%	38	40
3	100.00%	40	40
4	100.00%	40	40
5	100.00%	40	40
6	100.00%	40	40
7	97.50%	39	40
8	100.00%	40	40
9	100.00%	40	40
10	97.50%	39	40

MATH500

准确率: 89.00%
详细数据:

准确率已解决问题数总问题数

89.00% 445 500

JEEBench

平均准确率: 81.65% ± 1.03%
运行次数: 3
详细数据:

运行准确率已解决问题数总问题数

1 84.17% 433.5 515

2 80.29% 413.5 515

3 80.49% 414.5 515

GPQADiamond

平均准确率: 60.10% ± 0.00%
运行次数: 3
详细数据:

运行准确率已解决问题数总问题数

1 60.10% 119 198

2 60.10% 119 198

3 60.10% 119 198

LiveCodeBench

平均准确率: 62.52% ± 0.97%
运行次数: 6
详细数据:

运行准确率已解决问题数总问题数

1 60.27% 308 511

2 62.23% 318 511

3 62.43% 319 511

4 66.14% 338 511

5 59.88% 306 511

6 64.19% 328 511

CodeElo

平均准确率: 50.55% ± 0.52%
运行次数: 3
详细数据:

运行准确率已解决问题数总问题数

1 49.62% 194 391

2 50.64% 198 391

3 51.41% 201 391

CodeForces

平均准确率: 46.80% ± 1.22%
运行次数: 3
详细数据:

运行准确率已解决问题数总问题数

1 44.81% 203 453

2 49.01% 222 453

3 46.58% 211 453

AIME25

平均准确率: 68.67% ± 1.78%
运行次数: 10

详细数据:

运行	准确率	已解决问题数	总问题数
1	66.67%	20	30
2	76.67%	23	30
3	70.00%	21	30
4	60.00%	18	30
5	73.33%	22	30
6	66.67%	20	30
7	66.67%	20	30
8	60.00%	18	30
9	76.67%	23	30
10	70.00%	21	30

HLE

平均准确率: 13.26% ± 0.74%
运行次数: 3
详细数据:

运行准确率已解决问题数总问题数

1 11.70% 60 513

2 14.81% 76 513

3 13.26% 68 513

LiveCodeBenchv5

平均准确率: 49.59% ± 1.13%
运行次数: 3
详细数据:

运行准确率已解决问题数总问题数

1 47.43% 175 369

2 51.22% 189 369

3 50.14% 185 369

HMMT

平均准确率: 59.67% ± 1.66%
运行次数: 10

详细数据:

运行	准确率	已解决问题数	总问题数
1	46.67%	14	30
2	60.00%	18	30
3	60.00%	18	30
4	60.00%	18	30
5	60.00%	18	30
6	66.67%	20	30
7	60.00%	18	30
8	60.00%	18	30
9	56.67%	17	30
10	66.67%	20	30

搜集汇总

数据集介绍

构建方式

在人工智能推理评估领域，该数据集通过预计算模型输出的方式构建，涵盖了多个权威数学与编程竞赛的测试题目。其构建过程基于Nemotron-7B模型对AIME、AMC、MATH500等12个基准的标准化问题生成响应，每个基准均经过多次运行以确保结果的统计稳定性，最终形成包含准确率指标和详细解题数量的结构化评估数据。

特点

该数据集最显著的特征在于其多维度评估体系，覆盖从中学数学竞赛到高级编程挑战的广泛领域。各子集均呈现差异化性能表现，例如AMC23达到98.8%的极高准确率，而HLE仅13.3%的准确率恰好体现了不同难度梯度的设计理念。所有数据均附带标准差信息，为模型能力评估提供可靠的统计基础。

使用方法

研究人员可通过对比各基准的准确率分布，系统评估推理模型在不同认知难度任务中的表现。使用时应关注多次运行产生的标准差数据，结合不同学科领域（如数学证明、代码生成）的特性进行交叉分析。该数据集支持模型弱项诊断，例如通过HLE子集的低表现可定位高级逻辑推理的改进方向。

背景与挑战

背景概述

OpenReasoning-Nemotron-7B_eval_8179数据集由mlfoundations-dev团队构建，专注于评估大型语言模型在复杂推理任务中的性能表现。该数据集整合了多个权威数学与编程评测基准，包括AIME、AMC、MATH500、JEEBench等，旨在系统检验模型在数学推理、算法设计与代码生成等核心认知能力上的边界。通过跨领域多维度的评估框架，该数据集为人工智能推理能力的发展提供了关键基准参照，推动了通用智能系统在结构化问题求解领域的进步。

当前挑战

该数据集主要应对模型在高级推理任务中泛化能力不足的挑战，具体体现在数学奥林匹克问题（AIME/HMMT）和编程竞赛（CodeForces）的准确率波动较大（46.8%-79.0%），暴露了模型对复杂逻辑链和抽象概念的处理缺陷。构建过程中需协调十余个异构评测基准的标准化整合，解决不同评价体系间的指标对齐问题，同时确保评估结果在不同运行次数下的统计显著性，这要求精密的实验设计和严格的数据质量控制。

常用场景

经典使用场景

在数学推理与编程能力评估领域，该数据集作为预计算模型输出的基准测试集，广泛应用于衡量大型语言模型在复杂逻辑推理任务中的表现。其典型使用场景包括对模型在AIME、AMC等数学竞赛题以及LiveCodeBench等编程挑战中的准确性进行系统化评估，为模型优化提供量化依据。

实际应用

在实际应用层面，该数据集支撑了智能教育系统的开发，能够精准评估AI辅助解题系统的性能阈值。其构建的评估框架已应用于自适应学习平台，通过量化模型在JEEBench工程数学与CodeForces编程挑战中的表现，为教育科技领域的个性化教学提供技术验证基础。

衍生相关工作

基于该数据集衍生的经典研究包括多模态推理架构的优化、神经符号系统的协同训练范式创新等。这些工作通过分析模型在GPQADiamond问答任务和HMMT数学竞赛中的错误模式，推动了链式思维提示、自我修正机制等前沿技术的发展，为构建更可靠的AI推理系统奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

运行	准确率	已解决问题数	总问题数
1	60.27%	308	511
2	62.23%	318	511
3	62.43%	319	511
4	66.14%	338	511
5	59.88%	306	511
6	64.19%	328	511

运行	准确率	已解决问题数	总问题数
1	84.17%	433.5	515
2	80.29%	413.5	515
3	80.49%	414.5	515

运行	准确率	已解决问题数	总问题数
1	60.10%	119	198
2	60.10%	119	198
3	60.10%	119	198

运行	准确率	已解决问题数	总问题数
1	49.62%	194	391
2	50.64%	198	391
3	51.41%	201	391

运行	准确率	已解决问题数	总问题数
1	44.81%	203	453
2	49.01%	222	453
3	46.58%	211	453