openthoughts2_eval_636d
收藏Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/openthoughts2_eval_636d
下载链接
链接失效反馈官方服务:
资源简介:
mlfoundations-dev/openthoughts2_eval_636d是一个包含预先计算模型输出的评估数据集。数据集包含了针对多个任务(如AIME24、AMC23、MATH500等)的准确率、解决的问题数和总问题数的评估结果。
创建时间:
2025-04-28
原始信息汇总
数据集概述
基本信息
- 数据集名称: mlfoundations-dev/openthoughts2_eval_636d
- 用途: 预计算模型输出用于评估
评估结果
汇总统计
| 指标 | AIME24 | AMC23 | MATH500 | MMLUPro | JEEBench | GPQADiamond | LiveCodeBench | CodeElo | CodeForces |
|---|---|---|---|---|---|---|---|---|---|
| 准确率 | 54.0 | 87.3 | 88.2 | 31.0 | 63.0 | 47.5 | 53.2 | 19.4 | 23.2 |
详细评估
AIME24
- 平均准确率: 54.00% ± 1.99%
- 运行次数: 10
- 每次运行准确率: 50.00% 至 63.33%
- 总问题数: 30
AMC23
- 平均准确率: 87.25% ± 1.20%
- 运行次数: 10
- 每次运行准确率: 80.00% 至 92.50%
- 总问题数: 40
MATH500
- 准确率: 88.20%
- 已解决问题数: 441
- 总问题数: 500
MMLUPro
- 平均准确率: 31.00% ± 0.00%
- 运行次数: 1
- 已解决问题数: 155
- 总问题数: 500
JEEBench
- 平均准确率: 62.96% ± 0.14%
- 运行次数: 3
- 每次运行准确率: 62.67% 至 63.25%
- 总问题数: 515
GPQADiamond
- 平均准确率: 47.47% ± 1.45%
- 运行次数: 3
- 每次运行准确率: 43.94% 至 49.49%
- 总问题数: 198
LiveCodeBench
- 平均准确率: 53.16% ± 0.56%
- 运行次数: 3
- 每次运行准确率: 52.05% 至 53.82%
- 总问题数: 511
CodeElo
- 平均准确率: 19.44% ± 0.77%
- 运行次数: 3
- 每次运行准确率: 17.90% 至 20.20%
- 总问题数: 391
CodeForces
- 平均准确率: 23.18% ± 0.38%
- 运行次数: 3
- 每次运行准确率: 22.52% 至 23.84%
- 总问题数: 453
搜集汇总
数据集介绍

构建方式
在人工智能模型评估领域,openthoughts2_eval_636d数据集通过系统化的测试框架构建而成。该数据集整合了包括AIME24、AMC23、MATH500等九项国际权威数学与编程竞赛的试题数据,采用多轮次交叉验证方法确保评估结果的稳定性。每个测试项目均经过标准化处理,包含准确率、解题数量及题目总量等核心指标,并通过10次独立运行的实验设计来消除随机误差。
特点
该数据集展现出鲜明的多维度评估特征,覆盖从基础数学到高级编程的广泛能力谱系。其核心优势体现在差异化的测试难度设计,如AMC23项目达到87.25%的准确率,而CodeElo项目仅19.44%,有效区分模型的不同能力层级。数据呈现方式科学严谨,所有指标均附带标准差统计,如LiveCodeBench项目的53.16%±0.56%精度,为模型性能分析提供可靠依据。
使用方法
研究者可通过该数据集进行横向模型性能比对,重点关注不同测试项目的准确率分布特征。使用时应结合各子数据集的样本规模差异,如MATH500包含500道试题而GPQADiamond仅198道,合理设置评估权重。建议采用分段分析方法,将数学推理(AIME24/AMC23)与编程能力(CodeForces/CodeElo)分别建立评估矩阵,从而全面衡量模型的综合认知能力。
背景与挑战
背景概述
openthoughts2_eval_636d数据集由mlfoundations-dev团队构建,旨在为机器学习模型的评估提供预计算输出结果。该数据集涵盖了多个领域的评估指标,包括数学竞赛(AIME24、AMC23、MATH500)、综合知识测试(MMLUPro)、工程入学考试(JEEBench)、编程能力评估(LiveCodeBench、CodeElo、CodeForces)以及通用问题回答(GPQADiamond)。通过整合多样化的评估任务,该数据集为研究者提供了一个全面的基准测试平台,有助于深入分析模型在不同领域的表现及其泛化能力。
当前挑战
openthoughts2_eval_636d数据集在构建和应用过程中面临多重挑战。首先,数据集的多样性要求模型具备跨领域的适应能力,然而当前模型在部分任务(如MMLUPro和CodeElo)上的表现显著低于其他任务,揭示了模型在复杂知识理解和编程能力上的局限性。其次,数据集的构建涉及大量人工标注和验证,确保评估指标的准确性和一致性成为关键难点。此外,不同评估任务之间的难度差异较大,如何平衡任务权重以全面反映模型性能,仍是亟待解决的问题。
常用场景
经典使用场景
在人工智能模型评估领域,openthoughts2_eval_636d数据集作为预计算模型输出的基准测试集,广泛应用于衡量模型在数学推理、代码生成等复杂认知任务上的性能表现。该数据集通过AIME24、AMC23等标准化数学竞赛题目,以及LiveCodeBench等编程挑战题目,为研究者提供了多维度评估模型能力的测试环境,特别是在模型解决高阶逻辑问题和算法设计能力方面的评估具有独特价值。
衍生相关工作
基于该数据集的评估框架,学术界已衍生出多项重要研究工作。其中包括针对数学推理能力优化的MATHAI模型架构,以及专注于代码生成稳定性提升的StableCoder系统。这些工作不仅扩展了原始数据集的应用范围,还建立了更细粒度的评估子集,如针对竞赛数学的AIME-Pro专项测试集,进一步推动了领域内评估标准的发展。
数据集最近研究
最新研究方向
在人工智能评估领域,openthoughts2_eval_636d数据集凭借其多维度预计算模型输出特性,正成为算法性能基准测试的重要工具。该数据集覆盖数学推理(AIME24/AMC23)、专业学科(MMLUPro)、编程能力(LiveCodeBench/CodeForces)等九大评估维度,其跨领域评估框架为当前大语言模型的综合能力测评提供了标准化方案。近期研究聚焦于如何利用该数据集的细粒度评估指标优化模型微调策略,特别是在数学问题求解和代码生成场景中,通过对比AMC23(87.25%)与CodeForces(23.18%)的显著性能差异,揭示了领域专业化对模型表现的深层影响。
以上内容由遇见数据集搜集并总结生成



