OpenReasoning-Nemotron-7B_eval_8179
收藏Hugging Face2025-07-19 更新2025-07-20 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/OpenReasoning-Nemotron-7B_eval_8179
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了在不同推理和编码任务上的预计算模型输出,用于评估。这些任务包括AIME24、AMC23、MATH500、JEEBench、GPQADiamond、LiveCodeBench、CodeElo、AIME25、HLE、LiveCodeBenchv5和HMMT等。数据集中提供了每个任务的多轮运行结果和平均准确度。
创建时间:
2025-07-19
原始信息汇总
数据集概述
基本信息
- 数据集名称: mlfoundations-dev/OpenReasoning-Nemotron-7B_eval_8179
- 用途: 预计算的模型输出,用于评估。
评估结果
总体指标
| 指标 | AIME24 | AMC23 | MATH500 | JEEBench | GPQADiamond | LiveCodeBench | CodeElo | CodeForces | AIME25 | HLE | LiveCodeBenchv5 | HMMT |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 准确率 | 79.0 | 98.8 | 89.0 | 81.7 | 60.1 | 62.5 | 50.6 | 46.8 | 68.7 | 13.3 | 49.6 | 59.7 |
详细评估结果
AIME24
- 平均准确率: 79.00% ± 1.42%
- 运行次数: 10
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 70.00% 21 30 2 80.00% 24 30 3 80.00% 24 30 4 80.00% 24 30 5 86.67% 26 30 6 76.67% 23 30 7 80.00% 24 30 8 80.00% 24 30 9 83.33% 25 30 10 73.33% 22 30
AMC23
- 平均准确率: 98.75% ± 0.53%
- 运行次数: 10
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 97.50% 39 40 2 95.00% 38 40 3 100.00% 40 40 4 100.00% 40 40 5 100.00% 40 40 6 100.00% 40 40 7 97.50% 39 40 8 100.00% 40 40 9 100.00% 40 40 10 97.50% 39 40
MATH500
- 准确率: 89.00%
- 详细数据:
准确率 已解决问题数 总问题数 89.00% 445 500
JEEBench
- 平均准确率: 81.65% ± 1.03%
- 运行次数: 3
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 84.17% 433.5 515 2 80.29% 413.5 515 3 80.49% 414.5 515
GPQADiamond
- 平均准确率: 60.10% ± 0.00%
- 运行次数: 3
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 60.10% 119 198 2 60.10% 119 198 3 60.10% 119 198
LiveCodeBench
- 平均准确率: 62.52% ± 0.97%
- 运行次数: 6
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 60.27% 308 511 2 62.23% 318 511 3 62.43% 319 511 4 66.14% 338 511 5 59.88% 306 511 6 64.19% 328 511
CodeElo
- 平均准确率: 50.55% ± 0.52%
- 运行次数: 3
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 49.62% 194 391 2 50.64% 198 391 3 51.41% 201 391
CodeForces
- 平均准确率: 46.80% ± 1.22%
- 运行次数: 3
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 44.81% 203 453 2 49.01% 222 453 3 46.58% 211 453
AIME25
- 平均准确率: 68.67% ± 1.78%
- 运行次数: 10
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 66.67% 20 30 2 76.67% 23 30 3 70.00% 21 30 4 60.00% 18 30 5 73.33% 22 30 6 66.67% 20 30 7 66.67% 20 30 8 60.00% 18 30 9 76.67% 23 30 10 70.00% 21 30
HLE
- 平均准确率: 13.26% ± 0.74%
- 运行次数: 3
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 11.70% 60 513 2 14.81% 76 513 3 13.26% 68 513
LiveCodeBenchv5
- 平均准确率: 49.59% ± 1.13%
- 运行次数: 3
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 47.43% 175 369 2 51.22% 189 369 3 50.14% 185 369
HMMT
- 平均准确率: 59.67% ± 1.66%
- 运行次数: 10
- 详细数据:
运行 准确率 已解决问题数 总问题数 1 46.67% 14 30 2 60.00% 18 30 3 60.00% 18 30 4 60.00% 18 30 5 60.00% 18 30 6 66.67% 20 30 7 60.00% 18 30 8 60.00% 18 30 9 56.67% 17 30 10 66.67% 20 30
搜集汇总
数据集介绍

构建方式
在人工智能推理评估领域,该数据集通过预计算模型输出的方式构建,涵盖了多个权威数学与编程竞赛的测试题目。其构建过程基于Nemotron-7B模型对AIME、AMC、MATH500等12个基准的标准化问题生成响应,每个基准均经过多次运行以确保结果的统计稳定性,最终形成包含准确率指标和详细解题数量的结构化评估数据。
特点
该数据集最显著的特征在于其多维度评估体系,覆盖从中学数学竞赛到高级编程挑战的广泛领域。各子集均呈现差异化性能表现,例如AMC23达到98.8%的极高准确率,而HLE仅13.3%的准确率恰好体现了不同难度梯度的设计理念。所有数据均附带标准差信息,为模型能力评估提供可靠的统计基础。
使用方法
研究人员可通过对比各基准的准确率分布,系统评估推理模型在不同认知难度任务中的表现。使用时应关注多次运行产生的标准差数据,结合不同学科领域(如数学证明、代码生成)的特性进行交叉分析。该数据集支持模型弱项诊断,例如通过HLE子集的低表现可定位高级逻辑推理的改进方向。
背景与挑战
背景概述
OpenReasoning-Nemotron-7B_eval_8179数据集由mlfoundations-dev团队构建,专注于评估大型语言模型在复杂推理任务中的性能表现。该数据集整合了多个权威数学与编程评测基准,包括AIME、AMC、MATH500、JEEBench等,旨在系统检验模型在数学推理、算法设计与代码生成等核心认知能力上的边界。通过跨领域多维度的评估框架,该数据集为人工智能推理能力的发展提供了关键基准参照,推动了通用智能系统在结构化问题求解领域的进步。
当前挑战
该数据集主要应对模型在高级推理任务中泛化能力不足的挑战,具体体现在数学奥林匹克问题(AIME/HMMT)和编程竞赛(CodeForces)的准确率波动较大(46.8%-79.0%),暴露了模型对复杂逻辑链和抽象概念的处理缺陷。构建过程中需协调十余个异构评测基准的标准化整合,解决不同评价体系间的指标对齐问题,同时确保评估结果在不同运行次数下的统计显著性,这要求精密的实验设计和严格的数据质量控制。
常用场景
经典使用场景
在数学推理与编程能力评估领域,该数据集作为预计算模型输出的基准测试集,广泛应用于衡量大型语言模型在复杂逻辑推理任务中的表现。其典型使用场景包括对模型在AIME、AMC等数学竞赛题以及LiveCodeBench等编程挑战中的准确性进行系统化评估,为模型优化提供量化依据。
实际应用
在实际应用层面,该数据集支撑了智能教育系统的开发,能够精准评估AI辅助解题系统的性能阈值。其构建的评估框架已应用于自适应学习平台,通过量化模型在JEEBench工程数学与CodeForces编程挑战中的表现,为教育科技领域的个性化教学提供技术验证基础。
衍生相关工作
基于该数据集衍生的经典研究包括多模态推理架构的优化、神经符号系统的协同训练范式创新等。这些工作通过分析模型在GPQADiamond问答任务和HMMT数学竞赛中的错误模式,推动了链式思维提示、自我修正机制等前沿技术的发展,为构建更可靠的AI推理系统奠定理论基础。
以上内容由遇见数据集搜集并总结生成



