five

c1_math_0d_4s_1k_eval_636d

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/c1_math_0d_4s_1k_eval_636d
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了针对数学和编程问题的预计算模型输出,用于评估模型在多个相关任务中的表现。这些任务包括AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces等,每个任务都有详细的准确率统计和问题解决情况。

This dataset contains pre-computed model outputs for mathematical and programming problems, designed to evaluate model performance across multiple related tasks. These tasks include AIME24, AMC23, MATH500, MMLUPro, JEEBench, GPQADiamond, LiveCodeBench, CodeElo, CodeForces and others, with detailed accuracy statistics and problem-solving outcomes provided for each task.
创建时间:
2025-04-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: mlfoundations-dev/c1_math_0d_4s_1k_eval_636d
  • 用途: 预计算的模型输出评估

评估结果

综合评估

指标 AIME24 AMC23 MATH500 MMLUPro JEEBench GPQADiamond LiveCodeBench CodeElo CodeForces
准确率 20.7% 58.7% 78.4% 28.0% 43.4% 36.4% 23.7% 5.6% 5.7%

详细评估

AIME24

  • 平均准确率: 20.67% ± 0.79%
  • 运行次数: 10
  • 详细数据:
    • 运行1: 16.67% (5/30)
    • 运行2: 16.67% (5/30)
    • 运行3: 20.00% (6/30)
    • 运行4: 23.33% (7/30)
    • 运行5: 23.33% (7/30)
    • 运行6: 20.00% (6/30)
    • 运行7: 20.00% (6/30)
    • 运行8: 23.33% (7/30)
    • 运行9: 20.00% (6/30)
    • 运行10: 23.33% (7/30)

AMC23

  • 平均准确率: 58.75% ± 1.47%
  • 运行次数: 10
  • 详细数据:
    • 运行1: 57.50% (23/40)
    • 运行2: 57.50% (23/40)
    • 运行3: 60.00% (24/40)
    • 运行4: 60.00% (24/40)
    • 运行5: 60.00% (24/40)
    • 运行6: 47.50% (19/40)
    • 运行7: 60.00% (24/40)
    • 运行8: 57.50% (23/40)
    • 运行9: 60.00% (24/40)
    • 运行10: 67.50% (27/40)

MATH500

  • 准确率: 78.40%
  • 详细数据:
    • 准确率: 78.40% (392/500)

MMLUPro

  • 平均准确率: 28.00% ± 0.00%
  • 运行次数: 1
  • 详细数据:
    • 运行1: 28.00% (140/500)

JEEBench

  • 平均准确率: 43.43% ± 0.88%
  • 运行次数: 3
  • 详细数据:
    • 运行1: 43.54% (224.25/515)
    • 运行2: 41.50% (213.75/515)
    • 运行3: 45.24% (233.0/515)

GPQADiamond

  • 平均准确率: 36.36% ± 1.04%
  • 运行次数: 3
  • 详细数据:
    • 运行1: 33.84% (67/198)
    • 运行2: 37.37% (74/198)
    • 运行3: 37.88% (75/198)

LiveCodeBench

  • 平均准确率: 23.68% ± 0.74%
  • 运行次数: 3
  • 详细数据:
    • 运行1: 25.05% (128/511)
    • 运行2: 23.48% (120/511)
    • 运行3: 22.50% (115/511)

CodeElo

  • 平均准确率: 5.63% ± 0.15%
  • 运行次数: 3
  • 详细数据:
    • 运行1: 5.88% (23/391)
    • 运行2: 5.37% (21/391)
    • 运行3: 5.63% (22/391)

CodeForces

  • 平均准确率: 5.74% ± 0.67%
  • 运行次数: 3
  • 详细数据:
    • 运行1: 4.42% (20/453)
    • 运行2: 6.18% (28/453)
    • 运行3: 6.62% (30/453)
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集作为机器学习模型在数学与编程领域的评估基准,通过系统化采集多维度测试结果构建而成。其核心数据来源于AIME、AMC、MATH500等9项国际权威数学竞赛及编程评测的预计算输出,采用多次运行取均值的方式确保统计显著性,其中AIME24和AMC23分别进行10次独立测试,其余项目测试次数在1-3次之间,最终形成涵盖636个评估维度的综合性能矩阵。
特点
数据集以多层次评估框架著称,既包含经典数学竞赛AIME(平均准确率20.67%±0.79%)和AMC23(58.75%±1.47%)的细粒度测试,也整合了MMLUPro(28.00%)、LiveCodeBench(23.68%±0.74%)等跨学科测评。特别值得注意的是其动态评估设计,如JEEBench通过3次运行展现43.43%±0.88%的稳定表现,而CodeForces则揭示算法题5.74%±0.67%的极端挑战性,立体化呈现模型能力边界。
使用方法
研究者可通过HuggingFace平台直接获取预计算的评估结果,各子数据集均以结构化表格呈现运行次数、准确率区间及解题数量等核心指标。典型应用场景包括:横向对比不同模型在MATH500(78.4%准确率)等基准的表现差异,或纵向分析模型在CodeElo(5.63%±0.15%)等困难任务中的提升空间。建议结合误差范围数据开展统计显著性检验,并注意AMC23等存在单次运行47.5%异常值的数据需特殊处理。
背景与挑战
背景概述
数据集c1_math_0d_4s_1k_eval_636d由mlfoundations-dev团队构建,旨在为数学和编程领域的模型性能评估提供预计算输出。该数据集涵盖了多个评估基准,包括AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces,覆盖了从基础数学到高级编程竞赛的广泛领域。通过多轮运行和精确度统计,该数据集为研究人员提供了模型在不同任务上的稳定性和泛化能力的量化指标,推动了数学和编程智能领域的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面:首先,数学和编程问题的多样性和复杂性要求模型具备强大的推理和问题解决能力,而当前模型在AIME24和CodeForces等高级任务上的表现仍有显著提升空间。其次,数据集的构建过程中,确保评估基准的代表性和平衡性是一项复杂任务,需要精心设计问题选择和评分标准,以避免偏差并全面反映模型能力。此外,多轮运行的统计稳定性要求大规模计算资源和严格的实验设计,进一步增加了数据集构建的难度。
常用场景
经典使用场景
在数学与计算机科学交叉领域的研究中,c1_math_0d_4s_1k_eval_636d数据集被广泛用于评估模型在复杂数学问题求解和编程任务中的性能。该数据集通过涵盖AIME24、AMC23、MATH500等多个数学竞赛题目,为研究者提供了一个标准化的测试平台,用以衡量模型在数学推理和问题解决能力上的表现。特别是在多轮运行测试中,数据集能够稳定反映模型的准确性和鲁棒性,成为该领域内的重要基准。
衍生相关工作
围绕该数据集,研究者们开展了一系列经典工作,包括基于MATH500和AMC23的数学推理模型优化,以及利用CodeForces和CodeElo数据提升编程问题求解能力的研究。这些工作不仅扩展了数据集的应用范围,还衍生出新的评估方法和模型架构,进一步推动了数学与计算机科学交叉领域的技术发展。
数据集最近研究
最新研究方向
在数学与编程教育评估领域,c1_math_0d_4s_1k_eval_636d数据集为研究者提供了丰富的预计算模型输出结果,涵盖多个标准化测试如AIME24、AMC23、MATH500等。当前研究聚焦于利用此类数据集优化教育评估模型的泛化能力,特别是在复杂数学问题求解和编程技能评估方面。随着人工智能在教育领域的深入应用,该数据集为开发自适应学习系统和个性化教育工具提供了关键基准。其多维度评估框架不仅助力模型性能的横向比较,还为探索跨学科知识迁移提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作