openthinker3_first_e_step_eval_f670

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/nandansarkar/openthinker3_first_e_step_eval_f670

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了针对AIME24、AIME25和GPQADiamond三个数据集的预计算模型输出评估结果。每个数据集都有多个运行的平均准确率、解决的问题数和总问题数。

创建时间：

2025-07-14

原始信息汇总

数据集概述：nandansarkar/openthinker3_first_e_step_eval_f670

数据集描述

该数据集包含预计算的模型输出，用于评估目的。

评估结果

总体指标

指标	AIME24	AIME25	GPQADiamond
准确率	68.7%	54.3%	54.4%

AIME24评估详情

平均准确率: 68.67% ± 1.90%
运行次数: 10次

运行编号	准确率	已解决问题数	总问题数
1	63.33%	19	30
2	60.00%	18	30
3	66.67%	20	30
4	66.67%	20	30
5	80.00%	24	30
6	63.33%	19	30
7	70.00%	21	30
8	66.67%	20	30
9	73.33%	22	30
10	76.67%	23	30

AIME25评估详情

平均准确率: 54.33% ± 2.11%
运行次数: 10次

运行编号	准确率	已解决问题数	总问题数
1	60.00%	18	30
2	46.67%	14	30
3	60.00%	18	30
4	46.67%	14	30
5	50.00%	15	30
6	60.00%	18	30
7	56.67%	17	30
8	43.33%	13	30
9	56.67%	17	30
10	63.33%	19	30

GPQADiamond评估详情

平均准确率: 54.38% ± 0.77%
运行次数: 3次

运行编号	准确率	已解决问题数	总问题数
1	52.53%	104	198
2	55.56%	110	198
3	55.05%	109	198

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，openthinker3_first_e_step_eval_f670数据集通过系统化的实验设计构建而成。该数据集基于三个独立评估基准（AIME24、AIME25和GPQADiamond）的多轮测试结果，采用严格的重复实验方法，其中AIME24和AIME25各进行10次运行测试，GPQADiamond则完成3次运行。每次实验均记录模型输出的准确率及解题数量，通过计算平均准确率和标准差确保数据的统计显著性。

特点

该数据集展现出鲜明的多维度评估特性，其核心价值体现在跨基准的对比分析能力上。AIME24子集呈现出68.7%的最高平均准确率，且稳定性最佳（±1.90%），而GPQADiamond虽准确率较低（54.4%），但表现出惊人的实验一致性（±0.77%）。每个子集均包含完整的运行明细，包括单次准确率、解题数量等细粒度指标，为模型性能的波动分析提供了丰富的数据支撑。

使用方法

研究者可通过该数据集开展多角度的模型性能验证工作。建议优先关注不同基准间的准确率差异，结合AIME24与AIME25的显著性能落差（68.7% vs 54.3%），可探究模型在不同难度题库中的表现规律。对于稳定性要求较高的研究，GPQADiamond子集的低方差特性可作为可靠性验证的黄金标准。各子集内详尽的单次运行数据，特别适合用于绘制学习曲线或进行误差分析。

背景与挑战

背景概述

openthinker3_first_e_step_eval_f670数据集是由Nandan Sarkar团队构建的预计算模型输出评估数据集，旨在为复杂问答系统的性能评估提供标准化基准。该数据集聚焦于解决自然语言处理领域中知识推理与问答准确性的核心问题，通过AIME24、AIME25和GPQADiamond三个子测试集，系统评估模型在不同难度层级问题上的表现。其多轮测试架构和严格的标准差计算方式，为对话系统和问答模型的研究提供了可靠的性能度量工具。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，如何提升模型对数学推理（AIME系列）和开放域知识问答（GPQADiamond）的泛化能力，当前54.3%-68.7%的准确率表明模型对复杂语义理解和多步推理仍存在显著瓶颈；在构建技术层面，确保评估指标的科学性面临挑战，包括测试样本的难度梯度设计、评分标准的客观性维护，以及不同子测试集之间性能对比的公平性保障。

常用场景

经典使用场景

在人工智能与自然语言处理领域，openthinker3_first_e_step_eval_f670数据集作为预计算模型输出的评估基准，广泛应用于模型性能的量化分析。该数据集通过AIME24、AIME25和GPQADiamond三个子集，为研究者提供了多维度、多场景的评估框架，尤其适用于测试模型在复杂问题解答任务中的准确性和稳定性。

实际应用

在实际应用中，该数据集被广泛应用于智能问答系统、教育辅助工具和知识图谱构建等场景。通过评估模型在AIME数学竞赛题和GPQA钻石级问题上的表现，能够直接反映模型处理高难度专业问题的能力，为工业界优化对话系统和搜索引擎提供了关键数据支持。

衍生相关工作

基于该数据集的评估框架，衍生出多项关于模型鲁棒性分析和误差诊断的经典研究。部分工作聚焦于提升模型在数学推理任务中的表现，另一些则利用其多轮次评估特性开发了新型的模型稳定性测试方法，显著丰富了人工智能评估领域的技术体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集