five

c1_science_0d_32s_3k_eval_636d

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_32s_3k_eval_636d
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了预计算的模型输出,用于评估模型在不同数学和编程任务上的表现,如AIME24、AMC23、MATH500等。数据集提供了多个指标的准确率、解题数和总题数。
创建时间:
2025-04-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: mlfoundations-dev/c1_science_0d_32s_3k_eval_636d
  • 用途: 预计算的模型输出评估结果

评估结果摘要

指标 AIME24 AMC23 MATH500 MMLUPro JEEBench GPQADiamond LiveCodeBench CodeElo CodeForces
准确率 19.7 63.2 76.6 30.0 42.9 51.2 27.3 4.9 7.0

详细评估结果

AIME24

  • 平均准确率: 19.67% ± 1.66%
  • 运行次数: 10
  • 每次运行的准确率及解题数量: 详见数据集详情页

AMC23

  • 平均准确率: 63.25% ± 1.00%
  • 运行次数: 10
  • 每次运行的准确率及解题数量: 详见数据集详情页

MATH500

  • 准确率: 76.60%
  • 解题数量: 383/500

MMLUPro

  • 平均准确率: 30.00% ± 0.00%
  • 运行次数: 1
  • 每次运行的准确率及解题数量: 详见数据集详情页

JEEBench

  • 平均准确率: 42.88% ± 1.26%
  • 运行次数: 3
  • 每次运行的准确率及解题数量: 详见数据集详情页

GPQADiamond

  • 平均准确率: 51.18% ± 1.10%
  • 运行次数: 3
  • 每次运行的准确率及解题数量: 详见数据集详情页

LiveCodeBench

  • 平均准确率: 27.27% ± 1.64%
  • 运行次数: 3
  • 每次运行的准确率及解题数量: 详见数据集详情页

CodeElo

  • 平均准确率: 4.86% ± 0.26%
  • 运行次数: 3
  • 每次运行的准确率及解题数量: 详见数据集详情页

CodeForces

  • 平均准确率: 6.99% ± 0.29%
  • 运行次数: 3
  • 每次运行的准确率及解题数量: 详见数据集详情页
搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习模型评估领域,c1_science_0d_32s_3k_eval_636d数据集通过系统化的基准测试框架构建而成。该数据集采用多维度评估策略,覆盖AIME24、AMC23、MATH500等9个权威数学与编程竞赛题库,通过10次重复实验确保数据稳定性。每个子集均记录模型输出的准确率、解题数量及题目总量,并标注标准差以反映结果波动性,构建过程严格遵循实验可重复性原则。
特点
该数据集最显著的特征在于其跨学科评估的广度和深度,涵盖初等数学、高等数学、编程竞赛等多个知识领域。数据呈现鲜明的层次性,不同题库的准确率从4.86%至76.60%呈梯度分布,其中MATH500表现最优(76.6%),而CodeElo表现最具挑战性(4.86%)。每个子数据集均提供多轮运行结果,如AMC23的10次实验数据,为模型稳定性分析提供丰富素材。
使用方法
研究者可通过该数据集进行横向模型性能对比,重点关注不同知识领域的表现差异。使用时应结合各子集的题目特性进行分析,如AMC23侧重基础数学能力,而LiveCodeBench评估编程实践能力。建议采用分段评估策略,先观察整体准确率趋势,再深入分析特定题库的多次实验结果。数据中的标准差指标为模型鲁棒性研究提供了重要参考维度。
背景与挑战
背景概述
数据集c1_science_0d_32s_3k_eval_636d由mlfoundations-dev团队创建,旨在为科学领域的模型评估提供预计算的输出结果。该数据集涵盖了多个评估指标,包括AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces,涉及数学、编程、科学等多个领域。通过提供这些多样化的评估指标,该数据集为研究人员提供了一个全面的工具,用于衡量模型在不同科学任务中的表现。其影响力主要体现在推动了科学领域模型评估的标准化和多样化。
当前挑战
该数据集面临的挑战主要集中在两个方面:首先,所解决的领域问题涉及多个复杂的科学任务,如数学竞赛题解答、编程竞赛题解答等,这些任务对模型的逻辑推理、数学计算和编程能力提出了极高的要求。其次,在构建过程中,如何确保评估指标的多样性和全面性,以及如何平衡不同任务的难度和代表性,是数据集构建者需要克服的主要挑战。此外,数据集的预计算输出结果需要高度准确和可靠,以确保评估结果的公正性和可比性。
常用场景
经典使用场景
在人工智能模型评估领域,c1_science_0d_32s_3k_eval_636d数据集作为预计算模型输出的基准测试工具,被广泛应用于衡量模型在数学推理、代码生成等复杂认知任务中的表现。该数据集通过AIME24、AMC23等标准化测试模块,为研究者提供了多维度的模型性能评估框架,特别是在处理高阶数学问题和编程挑战时展现出独特的评测价值。
解决学术问题
该数据集有效解决了人工智能领域模型评估标准不统一的学术难题。通过整合数学竞赛题、编程题库等异构数据源,为对比不同模型在STEM任务上的泛化能力提供了量化依据。其精确到题目级别的细粒度评估指标,帮助研究者识别模型在逻辑推理、算法设计等关键能力上的短板,推动了认知智能评估方法论的发展。
衍生相关工作
该数据集催生了多个重要的后续研究,包括《多模态STEM能力评估框架》等开创性工作。研究者们基于其评估范式,相继开发了针对数学定理证明的MathEval基准、面向工业级代码生成的CodeXGLUE等衍生数据集,形成了认知智能评估的标准体系链。这些工作持续推动着AI模型在复杂问题解决能力上的突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作