c1_science_0d_1s_0.3k_eval_636d
收藏Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/c1_science_0d_1s_0.3k_eval_636d
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含预计算模型输出的评估数据集,用于评估模型在不同数学和编程任务上的表现,如AIME24、AMC23等。数据集提供了各个任务的准确率、解决的问题数和总问题数等详细信息。
创建时间:
2025-04-28
原始信息汇总
数据集概述
基本信息
- 数据集名称: mlfoundations-dev/c1_science_0d_1s_0.3k_eval_636d
- 用途: 预计算的模型输出评估结果
评估结果
综合指标
| 指标 | AIME24 | AMC23 | MATH500 | MMLUPro | JEEBench | GPQADiamond | LiveCodeBench | CodeElo | CodeForces |
|---|---|---|---|---|---|---|---|---|---|
| 准确率 | 16.0 | 52.3 | 73.6 | 28.4 | 37.7 | 42.3 | 8.9 | 4.8 | 6.8 |
详细评估
AIME24
- 平均准确率: 16.00% ± 1.32%
- 运行次数: 10
- 每次运行准确率: 10.00% - 23.33%
- 总问题数: 30
AMC23
- 平均准确率: 52.25% ± 1.48%
- 运行次数: 10
- 每次运行准确率: 42.50% - 60.00%
- 总问题数: 40
MATH500
- 准确率: 73.60%
- 解决问题数: 368
- 总问题数: 500
MMLUPro
- 平均准确率: 28.40% ± 0.00%
- 运行次数: 1
- 解决问题数: 142
- 总问题数: 500
JEEBench
- 平均准确率: 37.72% ± 0.08%
- 运行次数: 3
- 每次运行准确率: 37.52% - 37.86%
- 总问题数: 515
GPQADiamond
- 平均准确率: 42.26% ± 1.44%
- 运行次数: 3
- 每次运行准确率: 39.39% - 45.45%
- 总问题数: 198
LiveCodeBench
- 平均准确率: 8.87% ± 1.35%
- 运行次数: 3
- 每次运行准确率: 7.24% - 11.55%
- 总问题数: 511
CodeElo
- 平均准确率: 4.77% ± 0.23%
- 运行次数: 3
- 每次运行准确率: 4.35% - 5.12%
- 总问题数: 391
CodeForces
- 平均准确率: 6.77% ± 0.19%
- 运行次数: 3
- 每次运行准确率: 6.40% - 7.06%
- 总问题数: 453
搜集汇总
数据集介绍

构建方式
该数据集作为预计算模型输出结果的评估集合,其构建过程聚焦于多领域知识能力的系统性测评。通过整合AIME24、AMC23等9个国际权威测评体系的标准化试题,采用分层抽样方法确保题目覆盖广度,每个测评项目均设置多轮独立运行以验证稳定性,最终形成包含数学竞赛、编程能力、综合学科等维度的300样本评估矩阵。
特点
数据集展现出鲜明的跨学科评估特性,其核心价值体现在测评维度的多元异构性。数学领域覆盖从基础运算到奥赛难题的连续谱系,编程评估则囊括算法设计到工程实践的多层次能力。各子集通过标准差指标呈现稳定性特征,如AMC23的1.48%波动区间,而MATH500则以73.6%的准确率突显其在特定领域的鉴别力。
使用方法
该数据集适用于大语言模型能力的基准测试,研究者可通过加载预计算的JSON格式结果文件进行横向对比分析。使用时应关注不同子集的标准化处理方式,如AIME24采用10次运行均值而MMLUPro为单次结果。建议结合各测评体系的原始评分标准,将准确率指标映射到具体能力等级,特别注意LiveCodeBench等低准确率项目可能反映的模型能力边界。
背景与挑战
背景概述
数据集c1_science_0d_1s_0.3k_eval_636d由mlfoundations-dev团队构建,旨在为机器学习模型的评估提供预计算输出结果。该数据集聚焦于多领域科学问题的模型性能评测,涵盖数学竞赛(如AIME24、AMC23)、专业学科测试(如MMLUPro)以及编程能力评估(如LiveCodeBench、CodeForces)等多个维度。通过整合不同难度和领域的评估任务,该数据集为研究者在模型泛化能力和跨领域适应性方面提供了标准化测评工具,推动了机器学习在复杂科学问题求解中的发展。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:领域问题的多样性与模型评估的鲁棒性。不同测评任务间的领域跨度较大(从数学推理到编程竞赛),要求模型具备跨领域迁移能力,而当前各任务间显著的准确率差异(如MATH500的73.6%对比CodeElo的4.77%)揭示了模型能力的不均衡性。在构建过程中,如何平衡各子数据集的难度分布、确保评估指标的可比性,以及处理不同测试集之间的尺度归一化问题,均为需要解决的技术难点。
常用场景
经典使用场景
在人工智能与教育评估领域,c1_science_0d_1s_0.3k_eval_636d数据集被广泛应用于模型性能的标准化测试。该数据集通过涵盖AIME24、AMC23、MATH500等多样化数学竞赛题目,为研究者提供了衡量模型在复杂数学推理任务中表现的基准平台。其多轮次运行设计尤其适合分析模型在稳定性与泛化能力上的表现差异。
衍生相关工作
该数据集催生了多项关于数学推理模型的创新研究,包括基于MATH500结果的层级注意力机制改进,以及受JEEBench启发的问题分解算法。在代码生成领域,CodeElo模块的低准确率现象促使研究者开发了专门的程序语义理解架构,这些衍生工作显著推进了AI在复杂认知任务中的应用边界。
数据集最近研究
最新研究方向
在人工智能模型评估领域,c1_science_0d_1s_0.3k_eval_636d数据集作为预计算模型输出的基准测试工具,正推动着多维度性能评估体系的发展。该数据集覆盖了从数学竞赛(AIME24/AMC23)、专业学科测试(MMLUPro)到编程能力评估(CodeForces/LiveCodeBench)等九大评估维度,反映出当前研究正从单一指标向综合能力测评转型。特别是在STEM教育智能化方向,数据集揭示的模型在JEEBench(37.72%)与GPQADiamond(42.26%)表现差异,为自适应学习系统的算法优化提供了关键参照。近期大语言模型在竞赛数学解题方面的突破性进展,使得该数据集在AMC23(52.25%)和MATH500(73.6%)的评估结果成为验证模型逻辑推理能力的重要标尺。
以上内容由遇见数据集搜集并总结生成



