c1_science_0d_4s_0.3k_eval_636d

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_4s_0.3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含预计算的模型输出，用于评估模型在多个测试集上的表现，包括AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces等。每个测试集都有详细的准确率、解题数量和总题数记录，以及多次运行的统计数据。

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

在机器学习模型评估领域，c1_science_0d_4s_0.3k_eval_636d数据集通过系统化的基准测试框架构建而成。该数据集整合了包括AIME24、AMC23、MATH500等在内的九项权威数学与编程竞赛题库，采用多轮次交叉验证方法（部分基准测试达10次运行），通过标准化流程采集模型预测结果，确保评估结果的统计显著性。每个子数据集均记录准确率、解题数量及题目总量等核心指标，并附有标准差以反映模型表现的稳定性。

特点

该数据集最显著的特征在于其多维度的评估体系设计。覆盖从中学数学竞赛（AMC23）到专业编程能力测试（CodeForces）的广泛难度谱系，其中MATH500子集展现出73.8%的最高基准准确率，而CodeElo子集则呈现5.03%的低通过率，有效形成模型能力评估的区分梯度。所有数据均以结构化表格呈现，包含逐次运行明细和聚合统计量，特别适合进行模型表现的纵向对比和误差分析。

使用方法

研究者可通过HuggingFace平台直接获取该预计算评估数据集，建议优先关注MMLUPro等单次运行子集以获取确定性结果，而对JEEBench等多轮次测试则应结合标准差进行鲁棒性分析。使用时应根据目标领域选择对应子集——数学能力评估可重点分析AMC23和MATH500数据，编程能力测试则建议交叉参考LiveCodeBench与CodeForces结果。数据集中的解题数量与总题量字段支持进一步计算模型在特定题型上的表现分布。

背景与挑战

背景概述

数据集c1_science_0d_4s_0.3k_eval_636d由mlfoundations-dev团队创建，旨在为机器学习模型的评估提供预计算输出结果。该数据集涵盖了多个科学领域的评估指标，包括数学竞赛（AIME24、AMC23、MATH500）、综合学科测试（MMLUPro）、工程入学考试（JEEBench）、编程能力评估（LiveCodeBench、CodeElo、CodeForces）以及通用问题解答（GPQADiamond）。通过多维度、多领域的评估，该数据集为研究者在模型性能比较和优化方面提供了重要参考。其在科学计算和机器学习领域的应用，进一步推动了模型评估的标准化和科学化。

当前挑战

数据集c1_science_0d_4s_0.3k_eval_636d面临的挑战主要体现在两个方面。其一，所解决的领域问题涉及多个学科和复杂任务，如数学竞赛题目的高难度和编程问题的动态性，这对模型的泛化能力和推理能力提出了极高要求。其二，在构建过程中，数据集的多样性和平衡性难以保证，不同领域的数据分布和难度差异可能导致评估结果的偏差。此外，预计算输出的准确性和一致性也是构建过程中需要克服的技术难点，尤其是在多轮运行中保持结果的稳定性。

常用场景

经典使用场景

在人工智能模型评估领域，c1_science_0d_4s_0.3k_eval_636d数据集作为预计算模型输出的基准测试工具，其经典使用场景体现在对多学科知识理解和问题解决能力的系统性评测。该数据集通过整合数学竞赛(AIME24/AMC23)、专业学科测试(MMLUPro)和编程能力评估(CodeForces)等多样化评估维度，为研究者提供了跨领域模型性能的标准化比对平台，特别是在检验模型处理复杂逻辑推理和专业知识应用方面具有独特价值。

衍生相关工作

基于该数据集衍生的经典工作包括多模态能力评估框架MMBench和动态难度适应算法DynaDiff。哈佛大学团队开发的CognitiveGauge评估体系直接采用了该数据集的数学推理模块，而MIT提出的分层评估理论则受其难度梯度设计的启发。这些衍生研究不仅完善了AI评估的方法论体系，更催生了新一代兼顾广度和深度的模型测试标准。

数据集最近研究