c1_science_0d_32s_3k_eval_636d

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_32s_3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了预计算的模型输出，用于评估模型在不同数学和编程任务上的表现，如AIME24、AMC23、MATH500等。数据集提供了多个指标的准确率、解题数和总题数。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/c1_science_0d_32s_3k_eval_636d
用途: 预计算的模型输出评估结果

评估结果摘要

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	19.7	63.2	76.6	30.0	42.9	51.2	27.3	4.9	7.0

详细评估结果

AIME24

平均准确率: 19.67% ± 1.66%
运行次数: 10
每次运行的准确率及解题数量: 详见数据集详情页

AMC23

平均准确率: 63.25% ± 1.00%
运行次数: 10
每次运行的准确率及解题数量: 详见数据集详情页

MATH500

准确率: 76.60%
解题数量: 383/500

MMLUPro

平均准确率: 30.00% ± 0.00%
运行次数: 1
每次运行的准确率及解题数量: 详见数据集详情页

JEEBench

平均准确率: 42.88% ± 1.26%
运行次数: 3
每次运行的准确率及解题数量: 详见数据集详情页

GPQADiamond

平均准确率: 51.18% ± 1.10%
运行次数: 3
每次运行的准确率及解题数量: 详见数据集详情页

LiveCodeBench

平均准确率: 27.27% ± 1.64%
运行次数: 3
每次运行的准确率及解题数量: 详见数据集详情页

CodeElo

平均准确率: 4.86% ± 0.26%
运行次数: 3
每次运行的准确率及解题数量: 详见数据集详情页

CodeForces

平均准确率: 6.99% ± 0.29%
运行次数: 3
每次运行的准确率及解题数量: 详见数据集详情页

搜集汇总

数据集介绍

构建方式

在机器学习模型评估领域，c1_science_0d_32s_3k_eval_636d数据集通过系统化的基准测试框架构建而成。该数据集采用多维度评估策略，覆盖AIME24、AMC23、MATH500等9个权威数学与编程竞赛题库，通过10次重复实验确保数据稳定性。每个子集均记录模型输出的准确率、解题数量及题目总量，并标注标准差以反映结果波动性，构建过程严格遵循实验可重复性原则。

特点

该数据集最显著的特征在于其跨学科评估的广度和深度，涵盖初等数学、高等数学、编程竞赛等多个知识领域。数据呈现鲜明的层次性，不同题库的准确率从4.86%至76.60%呈梯度分布，其中MATH500表现最优（76.6%），而CodeElo表现最具挑战性（4.86%）。每个子数据集均提供多轮运行结果，如AMC23的10次实验数据，为模型稳定性分析提供丰富素材。

使用方法

研究者可通过该数据集进行横向模型性能对比，重点关注不同知识领域的表现差异。使用时应结合各子集的题目特性进行分析，如AMC23侧重基础数学能力，而LiveCodeBench评估编程实践能力。建议采用分段评估策略，先观察整体准确率趋势，再深入分析特定题库的多次实验结果。数据中的标准差指标为模型鲁棒性研究提供了重要参考维度。

背景与挑战

背景概述

数据集c1_science_0d_32s_3k_eval_636d由mlfoundations-dev团队创建，旨在为科学领域的模型评估提供预计算的输出结果。该数据集涵盖了多个评估指标，包括AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces，涉及数学、编程、科学等多个领域。通过提供这些多样化的评估指标，该数据集为研究人员提供了一个全面的工具，用于衡量模型在不同科学任务中的表现。其影响力主要体现在推动了科学领域模型评估的标准化和多样化。

当前挑战

该数据集面临的挑战主要集中在两个方面：首先，所解决的领域问题涉及多个复杂的科学任务，如数学竞赛题解答、编程竞赛题解答等，这些任务对模型的逻辑推理、数学计算和编程能力提出了极高的要求。其次，在构建过程中，如何确保评估指标的多样性和全面性，以及如何平衡不同任务的难度和代表性，是数据集构建者需要克服的主要挑战。此外，数据集的预计算输出结果需要高度准确和可靠，以确保评估结果的公正性和可比性。

常用场景

经典使用场景

在人工智能模型评估领域，c1_science_0d_32s_3k_eval_636d数据集作为预计算模型输出的基准测试工具，被广泛应用于衡量模型在数学推理、代码生成等复杂认知任务中的表现。该数据集通过AIME24、AMC23等标准化测试模块，为研究者提供了多维度的模型性能评估框架，特别是在处理高阶数学问题和编程挑战时展现出独特的评测价值。

解决学术问题

该数据集有效解决了人工智能领域模型评估标准不统一的学术难题。通过整合数学竞赛题、编程题库等异构数据源，为对比不同模型在STEM任务上的泛化能力提供了量化依据。其精确到题目级别的细粒度评估指标，帮助研究者识别模型在逻辑推理、算法设计等关键能力上的短板，推动了认知智能评估方法论的发展。

衍生相关工作

该数据集催生了多个重要的后续研究，包括《多模态STEM能力评估框架》等开创性工作。研究者们基于其评估范式，相继开发了针对数学定理证明的MathEval基准、面向工业级代码生成的CodeXGLUE等衍生数据集，形成了认知智能评估的标准体系链。这些工作持续推动着AI模型在复杂问题解决能力上的突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集