OpenReasoning-Nemotron-1.5B_eval_8179
收藏Hugging Face2025-07-19 更新2025-07-20 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/OpenReasoning-Nemotron-1.5B_eval_8179
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含预计算模型输出的评估数据集,用于衡量OpenReasoning-Nemotron-1.5B模型在不同数学和编程任务上的表现。数据集涵盖了多个不同的数学和编程基准测试,包括AIME24、AMC23、MATH500等,每个基准测试都有详细的准确率、解题数和总题数评估结果。
创建时间:
2025-07-19
原始信息汇总
数据集概述
基本信息
- 数据集名称:OpenReasoning-Nemotron-1.5B_eval_8179
- 用途:预计算模型输出用于评估
评估结果
综合评估
| 指标 | AIME24 | AMC23 | MATH500 | JEEBench | GPQADiamond | LiveCodeBench | CodeElo | CodeForces | AIME25 | HLE | LiveCodeBenchv5 | HMMT |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 准确率 | 49.7 | 83.0 | 78.0 | 49.4 | 31.0 | 35.5 | 19.8 | 14.6 | 40.7 | 12.0 | 24.3 | 32.3 |
详细评估
AIME24
- 平均准确率:49.67% ± 1.20%
- 运行次数:10
- 每次运行的准确率及解题数量详见数据集详情
AMC23
- 平均准确率:83.00% ± 1.31%
- 运行次数:10
- 每次运行的准确率及解题数量详见数据集详情
MATH500
- 准确率:78.00%
- 解题数量:390/500
JEEBench
- 平均准确率:49.42% ± 0.68%
- 运行次数:3
- 每次运行的准确率及解题数量详见数据集详情
GPQADiamond
- 平均准确率:30.98% ± 2.13%
- 运行次数:3
- 每次运行的准确率及解题数量详见数据集详情
LiveCodeBench
- 平均准确率:35.49% ± 0.33%
- 运行次数:6
- 每次运行的准确率及解题数量详见数据集详情
CodeElo
- 平均准确率:19.78% ± 1.18%
- 运行次数:3
- 每次运行的准确率及解题数量详见数据集详情
CodeForces
- 平均准确率:14.64% ± 0.48%
- 运行次数:3
- 每次运行的准确率及解题数量详见数据集详情
AIME25
- 平均准确率:40.67% ± 1.32%
- 运行次数:10
- 每次运行的准确率及解题数量详见数据集详情
HLE
- 平均准确率:11.96% ± 0.38%
- 运行次数:3
- 每次运行的准确率及解题数量详见数据集详情
LiveCodeBenchv5
- 平均准确率:24.30% ± 0.71%
- 运行次数:3
- 每次运行的准确率及解题数量详见数据集详情
HMMT
- 平均准确率:32.33% ± 1.57%
- 运行次数:10
- 每次运行的准确率及解题数量详见数据集详情
搜集汇总
数据集介绍

构建方式
在人工智能推理能力评估领域,该数据集通过预计算模型输出的方式构建,专门针对Nemotron-1.5B模型在多个权威数学与编程基准测试中的表现进行系统化采集。其构建过程涵盖了AIME、AMC、MATH500等12个差异化评估场景,每个场景均采用多轮运行机制以确保数据的统计稳定性,最终形成包含准确率指标及详细解题数量的结构化评估矩阵。
特点
该数据集显著特征体现在其多维度的评估覆盖体系,囊括了从中学数学竞赛到高级编程测试的广泛领域。数据呈现方式兼具宏观统计摘要与微观运行细节,不仅提供整体准确率均值与标准差,还完整保留每轮实验的解题数量分布。这种设计使得研究者既能把握模型在不同领域的整体性能轮廓,又能深入分析模型表现的稳定性和一致性特征。
使用方法
研究人员可通过直接调用预计算的评估结果,快速进行跨模型性能对比分析或深入探究特定领域的模型表现规律。数据集支持多粒度访问:既可获取整体性能摘要用于宏观比较,也能提取单个测试集的详细运行数据用于偏差分析。这种结构特别适合用于绘制模型能力雷达图、进行统计显著性检验或构建基准测试的性能演化趋势研究。
背景与挑战
背景概述
OpenReasoning-Nemotron-1.5B_eval_8179数据集由mlfoundations-dev团队构建,专注于评估大型语言模型在复杂推理任务中的性能表现。该数据集涵盖数学竞赛、编程挑战与逻辑推理等多个领域,包括AIME、AMC、MATH500、JEEBench等标准化测试题目。其核心研究问题在于系统化衡量模型在高级认知任务上的泛化能力与稳定性,为人工智能推理技术的发展提供关键基准支撑。
当前挑战
该数据集需解决多领域复杂推理的评估挑战,包括数学定理证明、算法设计及动态编程问题的精确求解,要求模型具备高阶逻辑抽象与符号计算能力。构建过程中面临标注一致性保障、跨领域知识融合与抗干扰性设计等难题,需协调专家知识验证与自动化评估流程的平衡,同时确保数据分布的代表性与评估指标的鲁棒性。
常用场景
经典使用场景
在数学推理与代码生成领域,该数据集通过预计算模型输出为大规模评估提供标准化基准。其覆盖AIME、AMC等数学竞赛题库及LiveCodeBench等编程评估平台,典型应用于衡量模型在复杂逻辑推理、数学问题求解和程序代码生成任务中的性能表现。多轮运行机制确保了评估结果的统计稳定性,为模型能力边界划定提供可靠依据。
解决学术问题
该数据集有效解决了人工智能领域对模型推理能力量化评估的迫切需求。通过整合跨难度层级的数学问题与代码生成任务,它为标准化的模型能力对比提供了基础设施,显著降低了重复评估的计算成本。其多维度精度指标为研究社区提供了模型在符号推理、算法实现等核心认知能力上的可解释性分析框架,推动了推理模型的可复现性研究。
衍生相关工作
该数据集催生了多项关于推理模型架构优化的经典研究。基于其评估范式,研究者提出了增强链式推理的CoT方法改进方案,以及针对数学符号处理的专用预训练技术。在代码生成领域,衍生出结合形式化验证的代码正确性保障框架,这些工作显著提升了模型在STEM领域的应用可靠性,形成了推理能力评估的技术生态体系。
以上内容由遇见数据集搜集并总结生成



