c1_science_0d_1s_0.3k_eval_636d

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_1s_0.3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含预计算模型输出的评估数据集，用于评估模型在不同数学和编程任务上的表现，如AIME24、AMC23等。数据集提供了各个任务的准确率、解决的问题数和总问题数等详细信息。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/c1_science_0d_1s_0.3k_eval_636d
用途: 预计算的模型输出评估结果

评估结果

综合指标

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	16.0	52.3	73.6	28.4	37.7	42.3	8.9	4.8	6.8

详细评估

AIME24

平均准确率: 16.00% ± 1.32%
运行次数: 10
每次运行准确率: 10.00% - 23.33%
总问题数: 30

AMC23

平均准确率: 52.25% ± 1.48%
运行次数: 10
每次运行准确率: 42.50% - 60.00%
总问题数: 40

MATH500

准确率: 73.60%
解决问题数: 368
总问题数: 500

MMLUPro

平均准确率: 28.40% ± 0.00%
运行次数: 1
解决问题数: 142
总问题数: 500

JEEBench

平均准确率: 37.72% ± 0.08%
运行次数: 3
每次运行准确率: 37.52% - 37.86%
总问题数: 515

GPQADiamond

平均准确率: 42.26% ± 1.44%
运行次数: 3
每次运行准确率: 39.39% - 45.45%
总问题数: 198

LiveCodeBench

平均准确率: 8.87% ± 1.35%
运行次数: 3
每次运行准确率: 7.24% - 11.55%
总问题数: 511

CodeElo

平均准确率: 4.77% ± 0.23%
运行次数: 3
每次运行准确率: 4.35% - 5.12%
总问题数: 391

CodeForces

平均准确率: 6.77% ± 0.19%
运行次数: 3
每次运行准确率: 6.40% - 7.06%
总问题数: 453

搜集汇总

数据集介绍

构建方式

该数据集作为预计算模型输出结果的评估集合，其构建过程聚焦于多领域知识能力的系统性测评。通过整合AIME24、AMC23等9个国际权威测评体系的标准化试题，采用分层抽样方法确保题目覆盖广度，每个测评项目均设置多轮独立运行以验证稳定性，最终形成包含数学竞赛、编程能力、综合学科等维度的300样本评估矩阵。

特点

数据集展现出鲜明的跨学科评估特性，其核心价值体现在测评维度的多元异构性。数学领域覆盖从基础运算到奥赛难题的连续谱系，编程评估则囊括算法设计到工程实践的多层次能力。各子集通过标准差指标呈现稳定性特征，如AMC23的1.48%波动区间，而MATH500则以73.6%的准确率突显其在特定领域的鉴别力。

使用方法

该数据集适用于大语言模型能力的基准测试，研究者可通过加载预计算的JSON格式结果文件进行横向对比分析。使用时应关注不同子集的标准化处理方式，如AIME24采用10次运行均值而MMLUPro为单次结果。建议结合各测评体系的原始评分标准，将准确率指标映射到具体能力等级，特别注意LiveCodeBench等低准确率项目可能反映的模型能力边界。

背景与挑战

背景概述

数据集c1_science_0d_1s_0.3k_eval_636d由mlfoundations-dev团队构建，旨在为机器学习模型的评估提供预计算输出结果。该数据集聚焦于多领域科学问题的模型性能评测，涵盖数学竞赛（如AIME24、AMC23）、专业学科测试（如MMLUPro）以及编程能力评估（如LiveCodeBench、CodeForces）等多个维度。通过整合不同难度和领域的评估任务，该数据集为研究者在模型泛化能力和跨领域适应性方面提供了标准化测评工具，推动了机器学习在复杂科学问题求解中的发展。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：领域问题的多样性与模型评估的鲁棒性。不同测评任务间的领域跨度较大（从数学推理到编程竞赛），要求模型具备跨领域迁移能力，而当前各任务间显著的准确率差异（如MATH500的73.6%对比CodeElo的4.77%）揭示了模型能力的不均衡性。在构建过程中，如何平衡各子数据集的难度分布、确保评估指标的可比性，以及处理不同测试集之间的尺度归一化问题，均为需要解决的技术难点。

常用场景

经典使用场景

在人工智能与教育评估领域，c1_science_0d_1s_0.3k_eval_636d数据集被广泛应用于模型性能的标准化测试。该数据集通过涵盖AIME24、AMC23、MATH500等多样化数学竞赛题目，为研究者提供了衡量模型在复杂数学推理任务中表现的基准平台。其多轮次运行设计尤其适合分析模型在稳定性与泛化能力上的表现差异。

衍生相关工作

该数据集催生了多项关于数学推理模型的创新研究，包括基于MATH500结果的层级注意力机制改进，以及受JEEBench启发的问题分解算法。在代码生成领域，CodeElo模块的低准确率现象促使研究者开发了专门的程序语义理解架构，这些衍生工作显著推进了AI在复杂认知任务中的应用边界。

数据集最近研究