five

OpenReasoning-Nemotron-7B_eval_8179

收藏
Hugging Face2025-07-19 更新2025-07-20 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/OpenReasoning-Nemotron-7B_eval_8179
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了在不同推理和编码任务上的预计算模型输出,用于评估。这些任务包括AIME24、AMC23、MATH500、JEEBench、GPQADiamond、LiveCodeBench、CodeElo、AIME25、HLE、LiveCodeBenchv5和HMMT等。数据集中提供了每个任务的多轮运行结果和平均准确度。
创建时间:
2025-07-19
原始信息汇总

数据集概述

基本信息

  • 数据集名称: mlfoundations-dev/OpenReasoning-Nemotron-7B_eval_8179
  • 用途: 预计算的模型输出,用于评估。

评估结果

总体指标

指标 AIME24 AMC23 MATH500 JEEBench GPQADiamond LiveCodeBench CodeElo CodeForces AIME25 HLE LiveCodeBenchv5 HMMT
准确率 79.0 98.8 89.0 81.7 60.1 62.5 50.6 46.8 68.7 13.3 49.6 59.7

详细评估结果

AIME24

  • 平均准确率: 79.00% ± 1.42%
  • 运行次数: 10
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 70.00% 21 30
    2 80.00% 24 30
    3 80.00% 24 30
    4 80.00% 24 30
    5 86.67% 26 30
    6 76.67% 23 30
    7 80.00% 24 30
    8 80.00% 24 30
    9 83.33% 25 30
    10 73.33% 22 30

AMC23

  • 平均准确率: 98.75% ± 0.53%
  • 运行次数: 10
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 97.50% 39 40
    2 95.00% 38 40
    3 100.00% 40 40
    4 100.00% 40 40
    5 100.00% 40 40
    6 100.00% 40 40
    7 97.50% 39 40
    8 100.00% 40 40
    9 100.00% 40 40
    10 97.50% 39 40

MATH500

  • 准确率: 89.00%
  • 详细数据:
    准确率 已解决问题数 总问题数
    89.00% 445 500

JEEBench

  • 平均准确率: 81.65% ± 1.03%
  • 运行次数: 3
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 84.17% 433.5 515
    2 80.29% 413.5 515
    3 80.49% 414.5 515

GPQADiamond

  • 平均准确率: 60.10% ± 0.00%
  • 运行次数: 3
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 60.10% 119 198
    2 60.10% 119 198
    3 60.10% 119 198

LiveCodeBench

  • 平均准确率: 62.52% ± 0.97%
  • 运行次数: 6
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 60.27% 308 511
    2 62.23% 318 511
    3 62.43% 319 511
    4 66.14% 338 511
    5 59.88% 306 511
    6 64.19% 328 511

CodeElo

  • 平均准确率: 50.55% ± 0.52%
  • 运行次数: 3
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 49.62% 194 391
    2 50.64% 198 391
    3 51.41% 201 391

CodeForces

  • 平均准确率: 46.80% ± 1.22%
  • 运行次数: 3
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 44.81% 203 453
    2 49.01% 222 453
    3 46.58% 211 453

AIME25

  • 平均准确率: 68.67% ± 1.78%
  • 运行次数: 10
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 66.67% 20 30
    2 76.67% 23 30
    3 70.00% 21 30
    4 60.00% 18 30
    5 73.33% 22 30
    6 66.67% 20 30
    7 66.67% 20 30
    8 60.00% 18 30
    9 76.67% 23 30
    10 70.00% 21 30

HLE

  • 平均准确率: 13.26% ± 0.74%
  • 运行次数: 3
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 11.70% 60 513
    2 14.81% 76 513
    3 13.26% 68 513

LiveCodeBenchv5

  • 平均准确率: 49.59% ± 1.13%
  • 运行次数: 3
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 47.43% 175 369
    2 51.22% 189 369
    3 50.14% 185 369

HMMT

  • 平均准确率: 59.67% ± 1.66%
  • 运行次数: 10
  • 详细数据:
    运行 准确率 已解决问题数 总问题数
    1 46.67% 14 30
    2 60.00% 18 30
    3 60.00% 18 30
    4 60.00% 18 30
    5 60.00% 18 30
    6 66.67% 20 30
    7 60.00% 18 30
    8 60.00% 18 30
    9 56.67% 17 30
    10 66.67% 20 30
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能推理评估领域,该数据集通过预计算模型输出的方式构建,涵盖了多个权威数学与编程竞赛的测试题目。其构建过程基于Nemotron-7B模型对AIME、AMC、MATH500等12个基准的标准化问题生成响应,每个基准均经过多次运行以确保结果的统计稳定性,最终形成包含准确率指标和详细解题数量的结构化评估数据。
特点
该数据集最显著的特征在于其多维度评估体系,覆盖从中学数学竞赛到高级编程挑战的广泛领域。各子集均呈现差异化性能表现,例如AMC23达到98.8%的极高准确率,而HLE仅13.3%的准确率恰好体现了不同难度梯度的设计理念。所有数据均附带标准差信息,为模型能力评估提供可靠的统计基础。
使用方法
研究人员可通过对比各基准的准确率分布,系统评估推理模型在不同认知难度任务中的表现。使用时应关注多次运行产生的标准差数据,结合不同学科领域(如数学证明、代码生成)的特性进行交叉分析。该数据集支持模型弱项诊断,例如通过HLE子集的低表现可定位高级逻辑推理的改进方向。
背景与挑战
背景概述
OpenReasoning-Nemotron-7B_eval_8179数据集由mlfoundations-dev团队构建,专注于评估大型语言模型在复杂推理任务中的性能表现。该数据集整合了多个权威数学与编程评测基准,包括AIME、AMC、MATH500、JEEBench等,旨在系统检验模型在数学推理、算法设计与代码生成等核心认知能力上的边界。通过跨领域多维度的评估框架,该数据集为人工智能推理能力的发展提供了关键基准参照,推动了通用智能系统在结构化问题求解领域的进步。
当前挑战
该数据集主要应对模型在高级推理任务中泛化能力不足的挑战,具体体现在数学奥林匹克问题(AIME/HMMT)和编程竞赛(CodeForces)的准确率波动较大(46.8%-79.0%),暴露了模型对复杂逻辑链和抽象概念的处理缺陷。构建过程中需协调十余个异构评测基准的标准化整合,解决不同评价体系间的指标对齐问题,同时确保评估结果在不同运行次数下的统计显著性,这要求精密的实验设计和严格的数据质量控制。
常用场景
经典使用场景
在数学推理与编程能力评估领域,该数据集作为预计算模型输出的基准测试集,广泛应用于衡量大型语言模型在复杂逻辑推理任务中的表现。其典型使用场景包括对模型在AIME、AMC等数学竞赛题以及LiveCodeBench等编程挑战中的准确性进行系统化评估,为模型优化提供量化依据。
实际应用
在实际应用层面,该数据集支撑了智能教育系统的开发,能够精准评估AI辅助解题系统的性能阈值。其构建的评估框架已应用于自适应学习平台,通过量化模型在JEEBench工程数学与CodeForces编程挑战中的表现,为教育科技领域的个性化教学提供技术验证基础。
衍生相关工作
基于该数据集衍生的经典研究包括多模态推理架构的优化、神经符号系统的协同训练范式创新等。这些工作通过分析模型在GPQADiamond问答任务和HMMT数学竞赛中的错误模式,推动了链式思维提示、自我修正机制等前沿技术的发展,为构建更可靠的AI推理系统奠定理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作