c1_science_0d_16s_0.3k_eval_636d

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_16s_0.3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含预计算模型输出评估结果的数据集，用于评估模型在不同数学和编程相关问题上的表现。数据集包含了多个任务，如AIME24、AMC23、MATH500等，每个任务都有多次运行的准确率、解决的问题数量和总问题数量的统计数据。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/c1_science_0d_16s_0.3k_eval_636d
用途: 预计算的模型输出，用于评估

评估结果

综合评估

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	15.0	56.7	76.6	28.8	36.7	41.6	24.9	4.3	6.7

详细评估结果

AIME24

平均准确率: 15.00% ± 1.51%
运行次数: 10
每次运行结果:
- 运行1: 20.00% (6/30)
- 运行2: 20.00% (6/30)
- 运行3: 20.00% (6/30)
- 运行4: 20.00% (6/30)
- 运行5: 10.00% (3/30)
- 运行6: 13.33% (4/30)
- 运行7: 13.33% (4/30)
- 运行8: 6.67% (2/30)
- 运行9: 16.67% (5/30)
- 运行10: 10.00% (3/30)

AMC23

平均准确率: 56.75% ± 1.46%
运行次数: 10
每次运行结果:
- 运行1: 52.50% (21/40)
- 运行2: 50.00% (20/40)
- 运行3: 60.00% (24/40)
- 运行4: 50.00% (20/40)
- 运行5: 57.50% (23/40)
- 运行6: 57.50% (23/40)
- 运行7: 55.00% (22/40)
- 运行8: 65.00% (26/40)
- 运行9: 60.00% (24/40)
- 运行10: 60.00% (24/40)

MATH500

准确率: 76.60%
解答问题数: 383/500

MMLUPro

平均准确率: 28.80% ± 0.00%
运行次数: 1
运行结果:
- 运行1: 28.80% (144/500)

JEEBench

平均准确率: 36.68% ± 1.04%
运行次数: 3
每次运行结果:
- 运行1: 39.22% (202.0/515)
- 运行2: 35.44% (182.5/515)
- 运行3: 35.39% (182.25/515)

GPQADiamond

平均准确率: 41.58% ± 1.45%
运行次数: 3
每次运行结果:
- 运行1: 38.89% (77/198)
- 运行2: 44.95% (89/198)
- 运行3: 40.91% (81/198)

LiveCodeBench

平均准确率: 24.92% ± 1.14%
运行次数: 3
每次运行结果:
- 运行1: 24.66% (126/511)
- 运行2: 27.01% (138/511)
- 运行3: 23.09% (118/511)

CodeElo

平均准确率: 4.26% ± 0.17%
运行次数: 3
每次运行结果:
- 运行1: 4.60% (18/391)
- 运行2: 4.09% (16/391)
- 运行3: 4.09% (16/391)

CodeForces

平均准确率: 6.70% ± 0.19%
运行次数: 3
每次运行结果:
- 运行1: 6.40% (29/453)
- 运行2: 6.62% (30/453)
- 运行3: 7.06% (32/453)

搜集汇总

数据集介绍

构建方式

该数据集作为机器学习模型预计算输出的评估基准，其构建过程体现了严谨的科学方法论。通过整合AIME24、AMC23、MATH500等9个国际权威数学与编程竞赛的试题库，采用多轮次交叉验证机制（如AIME24进行10次独立运行），确保评估结果的统计显著性。数据采集严格遵循原始竞赛的命题规范和评分标准，每项指标均标注标准差以反映模型表现的稳定性。

使用方法

使用该数据集时建议采用分层评估策略。研究者可优先关注MMLUPro等综合性强的大规模测试集（500题）获取整体性能画像，再通过CodeElo等专业性强的小规模测试集（391题）进行专项能力诊断。数据以结构化表格呈现运行明细，支持直接计算置信区间。对于跨领域比较，应注意各子集的评分标准差异，建议结合标准差指标判断模型表现的鲁棒性。

背景与挑战

背景概述

数据集c1_science_0d_16s_0.3k_eval_636d由mlfoundations-dev团队构建，旨在为科学领域的模型评估提供预计算输出结果。该数据集涵盖了多个评估指标，包括AIME24、AMC23、MATH500、MMLUPro等，涉及数学、编程及综合科学能力测试。其核心研究问题在于通过多维度评估，量化模型在复杂科学问题解决中的性能表现。该数据集的建立为科学领域的人工智能模型评估提供了标准化基准，推动了相关研究的可比性和可重复性。

当前挑战

数据集c1_science_0d_16s_0.3k_eval_636d面临的挑战主要体现在两个方面：其一，科学问题的复杂性和多样性要求模型具备跨领域的知识整合能力，而当前模型的准确率在不同测试中表现不均，如AIME24的准确率仅为15.0%，反映出模型在高级数学问题解决上的局限性；其二，数据集的构建过程中，如何确保评估指标的全面性和代表性是一大难点，尤其是在涵盖不同难度和领域的科学问题时，平衡数据集的广度和深度需要精细的设计和验证。

常用场景

经典使用场景

在人工智能模型的评估领域，c1_science_0d_16s_0.3k_eval_636d数据集被广泛用于多学科知识理解和推理能力的测试。该数据集通过涵盖数学竞赛、编程挑战和综合学科问答等多个维度，为研究者提供了一个全面评估模型性能的平台。尤其在模型泛化能力和复杂问题解决能力的测试中，该数据集展现了其独特的价值。

解决学术问题

该数据集有效解决了人工智能领域模型评估标准化的关键问题。通过整合AIME、AMC、MMLUPro等权威测试数据，为研究者提供了跨学科的量化评估工具。其多维度指标设计尤其有助于揭示模型在数学推理、代码生成等核心能力上的真实水平，填补了传统评估方法在复杂认知任务上的空白。

实际应用

在实际应用中，该数据集已成为科技公司和大模型开发团队的重要基准测试工具。教育科技企业利用其评估智能辅导系统的学科能力，而AI实验室则依赖其进行模型迭代的纵向对比。特别是在编程辅助工具的开发中，该数据集提供的CodeElo和CodeForces指标具有直接的参考价值。

数据集最近研究