five

c1_science_0d_16s_0.3k_eval_636d

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_16s_0.3k_eval_636d
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含预计算模型输出评估结果的数据集,用于评估模型在不同数学和编程相关问题上的表现。数据集包含了多个任务,如AIME24、AMC23、MATH500等,每个任务都有多次运行的准确率、解决的问题数量和总问题数量的统计数据。
创建时间:
2025-04-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: mlfoundations-dev/c1_science_0d_16s_0.3k_eval_636d
  • 用途: 预计算的模型输出,用于评估

评估结果

综合评估

指标 AIME24 AMC23 MATH500 MMLUPro JEEBench GPQADiamond LiveCodeBench CodeElo CodeForces
准确率 15.0 56.7 76.6 28.8 36.7 41.6 24.9 4.3 6.7

详细评估结果

AIME24

  • 平均准确率: 15.00% ± 1.51%
  • 运行次数: 10
  • 每次运行结果:
    • 运行1: 20.00% (6/30)
    • 运行2: 20.00% (6/30)
    • 运行3: 20.00% (6/30)
    • 运行4: 20.00% (6/30)
    • 运行5: 10.00% (3/30)
    • 运行6: 13.33% (4/30)
    • 运行7: 13.33% (4/30)
    • 运行8: 6.67% (2/30)
    • 运行9: 16.67% (5/30)
    • 运行10: 10.00% (3/30)

AMC23

  • 平均准确率: 56.75% ± 1.46%
  • 运行次数: 10
  • 每次运行结果:
    • 运行1: 52.50% (21/40)
    • 运行2: 50.00% (20/40)
    • 运行3: 60.00% (24/40)
    • 运行4: 50.00% (20/40)
    • 运行5: 57.50% (23/40)
    • 运行6: 57.50% (23/40)
    • 运行7: 55.00% (22/40)
    • 运行8: 65.00% (26/40)
    • 运行9: 60.00% (24/40)
    • 运行10: 60.00% (24/40)

MATH500

  • 准确率: 76.60%
  • 解答问题数: 383/500

MMLUPro

  • 平均准确率: 28.80% ± 0.00%
  • 运行次数: 1
  • 运行结果:
    • 运行1: 28.80% (144/500)

JEEBench

  • 平均准确率: 36.68% ± 1.04%
  • 运行次数: 3
  • 每次运行结果:
    • 运行1: 39.22% (202.0/515)
    • 运行2: 35.44% (182.5/515)
    • 运行3: 35.39% (182.25/515)

GPQADiamond

  • 平均准确率: 41.58% ± 1.45%
  • 运行次数: 3
  • 每次运行结果:
    • 运行1: 38.89% (77/198)
    • 运行2: 44.95% (89/198)
    • 运行3: 40.91% (81/198)

LiveCodeBench

  • 平均准确率: 24.92% ± 1.14%
  • 运行次数: 3
  • 每次运行结果:
    • 运行1: 24.66% (126/511)
    • 运行2: 27.01% (138/511)
    • 运行3: 23.09% (118/511)

CodeElo

  • 平均准确率: 4.26% ± 0.17%
  • 运行次数: 3
  • 每次运行结果:
    • 运行1: 4.60% (18/391)
    • 运行2: 4.09% (16/391)
    • 运行3: 4.09% (16/391)

CodeForces

  • 平均准确率: 6.70% ± 0.19%
  • 运行次数: 3
  • 每次运行结果:
    • 运行1: 6.40% (29/453)
    • 运行2: 6.62% (30/453)
    • 运行3: 7.06% (32/453)
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集作为机器学习模型预计算输出的评估基准,其构建过程体现了严谨的科学方法论。通过整合AIME24、AMC23、MATH500等9个国际权威数学与编程竞赛的试题库,采用多轮次交叉验证机制(如AIME24进行10次独立运行),确保评估结果的统计显著性。数据采集严格遵循原始竞赛的命题规范和评分标准,每项指标均标注标准差以反映模型表现的稳定性。
使用方法
使用该数据集时建议采用分层评估策略。研究者可优先关注MMLUPro等综合性强的大规模测试集(500题)获取整体性能画像,再通过CodeElo等专业性强的小规模测试集(391题)进行专项能力诊断。数据以结构化表格呈现运行明细,支持直接计算置信区间。对于跨领域比较,应注意各子集的评分标准差异,建议结合标准差指标判断模型表现的鲁棒性。
背景与挑战
背景概述
数据集c1_science_0d_16s_0.3k_eval_636d由mlfoundations-dev团队构建,旨在为科学领域的模型评估提供预计算输出结果。该数据集涵盖了多个评估指标,包括AIME24、AMC23、MATH500、MMLUPro等,涉及数学、编程及综合科学能力测试。其核心研究问题在于通过多维度评估,量化模型在复杂科学问题解决中的性能表现。该数据集的建立为科学领域的人工智能模型评估提供了标准化基准,推动了相关研究的可比性和可重复性。
当前挑战
数据集c1_science_0d_16s_0.3k_eval_636d面临的挑战主要体现在两个方面:其一,科学问题的复杂性和多样性要求模型具备跨领域的知识整合能力,而当前模型的准确率在不同测试中表现不均,如AIME24的准确率仅为15.0%,反映出模型在高级数学问题解决上的局限性;其二,数据集的构建过程中,如何确保评估指标的全面性和代表性是一大难点,尤其是在涵盖不同难度和领域的科学问题时,平衡数据集的广度和深度需要精细的设计和验证。
常用场景
经典使用场景
在人工智能模型的评估领域,c1_science_0d_16s_0.3k_eval_636d数据集被广泛用于多学科知识理解和推理能力的测试。该数据集通过涵盖数学竞赛、编程挑战和综合学科问答等多个维度,为研究者提供了一个全面评估模型性能的平台。尤其在模型泛化能力和复杂问题解决能力的测试中,该数据集展现了其独特的价值。
解决学术问题
该数据集有效解决了人工智能领域模型评估标准化的关键问题。通过整合AIME、AMC、MMLUPro等权威测试数据,为研究者提供了跨学科的量化评估工具。其多维度指标设计尤其有助于揭示模型在数学推理、代码生成等核心能力上的真实水平,填补了传统评估方法在复杂认知任务上的空白。
实际应用
在实际应用中,该数据集已成为科技公司和大模型开发团队的重要基准测试工具。教育科技企业利用其评估智能辅导系统的学科能力,而AI实验室则依赖其进行模型迭代的纵向对比。特别是在编程辅助工具的开发中,该数据集提供的CodeElo和CodeForces指标具有直接的参考价值。
数据集最近研究
最新研究方向
在人工智能模型评估领域,c1_science_0d_16s_0.3k_eval_636d数据集为研究者提供了多维度性能分析的基准工具。该数据集覆盖了从数学竞赛(AIME24、AMC23)、专业学科测试(MMLUPro)到编程能力评估(CodeForces、LiveCodeBench)等多样化场景,反映出当前大模型在复杂认知任务上的表现差异。特别是在数学推理和编程解题方面,数据揭示出模型在AMC23(56.7%)与MATH500(76.6%)中的显著性能波动,这为探索模型在结构化问题求解与开放域编码任务间的泛化能力提供了关键线索。近期研究正基于此类评估数据,聚焦于模型知识迁移机制的优化,以及领域适应性与鲁棒性的提升策略。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作