c1_math_nod_4s_10k_eval_636d

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/c1_math_nod_4s_10k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了预计算的模型输出，用于评估数学和编程相关任务的性能。评估结果包括多个测试集的准确度，如AIME24、AMC23等，以及每个测试集的多轮运行数据。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/c1_math_nod_4s_10k_eval_636d
用途: 预计算的模型输出评估数据

评估结果摘要

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	29.0	70.0	82.6	29.0	47.0	48.8	26.2	6.6	9.8

详细评估结果

AIME24

平均准确率: 29.00% ± 1.70%
运行次数: 10
每次运行准确率范围: 20.00% - 33.33%
总问题数: 30

AMC23

平均准确率: 70.00% ± 1.41%
运行次数: 10
每次运行准确率范围: 62.50% - 77.50%
总问题数: 40

MATH500

准确率: 82.60%
已解决问题数: 413
总问题数: 500

MMLUPro

平均准确率: 29.00% ± 0.00%
运行次数: 1
已解决问题数: 145
总问题数: 500

JEEBench

平均准确率: 46.96% ± 0.37%
运行次数: 3
每次运行准确率范围: 46.41% - 47.86%
总问题数: 515

GPQADiamond

平均准确率: 48.82% ± 0.50%
运行次数: 3
每次运行准确率范围: 47.98% - 50.00%
总问题数: 198

LiveCodeBench

平均准确率: 26.16% ± 1.21%
运行次数: 3
每次运行准确率范围: 24.85% - 28.57%
总问题数: 511

CodeElo

平均准确率: 6.65% ± 0.15%
运行次数: 3
每次运行准确率范围: 6.39% - 6.91%
总问题数: 391

CodeForces

平均准确率: 9.79% ± 0.57%
运行次数: 3
每次运行准确率范围: 8.83% - 10.82%
总问题数: 453

搜集汇总

数据集介绍

构建方式

该数据集作为数学与编程领域的评估基准，通过系统化采集多个权威测试平台（包括AIME24、AMC23、MATH500等）的预计算模型输出构建而成。采用多轮次重复测试方法确保数据稳定性，每项测试均记录准确率、解题数量及题目总量，形成标准化评估矩阵。技术实现上通过自动化脚本对模型输出进行批量采集与校验，最终整合为包含10,000个评估样本的结构化数据集。

特点

数据集涵盖数学竞赛、大学预科数学及编程能力评估三大维度，具有显著的跨学科特性。其核心价值体现在多尺度评估体系设计，既包含精细化的单次测试数据（如MATH500的82.6%准确率），也提供多轮测试的统计稳定性分析（如AMC23的70%±1.41%置信区间）。特别值得注意的是数据集对模型能力的差异化呈现，在编程类评估中准确率呈现明显梯度分布（CodeElo6.65%至LiveCodeBench26.16%），为模型能力边界研究提供重要参照。

使用方法

研究者可通过加载标准化数据文件快速复现评估结果，建议优先关注跨数据集的一致性分析。对于数学能力评估，可横向对比AMC23与MATH500的表现差异；编程能力研究则建议结合CodeForces与LiveCodeBench数据进行联合分析。数据集中提供的原始解题记录支持细粒度错误分析，使用者可提取特定题型的模型表现数据进行归因研究。评估时需注意不同测试集的题目数量差异，建议采用加权平均方式进行综合能力评估。

背景与挑战

背景概述

c1_math_nod_4s_10k_eval_636d数据集由mlfoundations-dev团队构建，旨在评估模型在数学推理与编程能力等复杂认知任务中的表现。该数据集涵盖了AIME24、AMC23、MATH500等多个权威数学竞赛题目，以及MMLUPro、LiveCodeBench等跨学科知识评估基准，为衡量人工智能系统在高级逻辑思维与问题解决能力方面提供了标准化测试平台。其构建反映了当前AI研究向高阶认知任务拓展的趋势，对推动教育科技与智能辅导系统的发展具有重要参考价值。

当前挑战

该数据集面临的核心挑战在于数学与编程问题的复杂性与多样性。数学题目涉及抽象代数、组合数学等高阶概念，要求模型具备符号推理与多步推导能力；编程问题则需理解算法逻辑与代码结构，这对当前基于统计学习的模型构成显著挑战。数据构建过程中，如何平衡题目难度分布、确保评估指标的鲁棒性，以及处理竞赛题目特有的模糊性与开放性，均为亟待解决的技术难点。

常用场景

经典使用场景

在数学与编程教育领域，c1_math_nod_4s_10k_eval_636d数据集被广泛用于评估模型在各类数学竞赛和编程挑战中的表现。该数据集通过涵盖AIME、AMC、MATH500等多个权威数学竞赛题目，为研究者提供了一个标准化的测试平台。模型在解决这些复杂数学问题时的表现，能够直观反映其逻辑推理和数学建模能力的高下。

衍生相关工作

基于该数据集，研究者们开展了一系列创新工作。有团队开发了专门针对数学竞赛题的微调方法，显著提升了模型在AMC等考试中的表现。另一些工作则聚焦于错误分析，通过深入研究模型在MATH500等题库中的错误模式，提出了改进数学推理架构的新思路。这些衍生研究不断推动着AI数学能力的前沿。

数据集最近研究