opencodereasoning_3k_eval_636d

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/opencodereasoning_3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含预计算的模型输出，用于评估不同数据集上的模型性能。评估数据涵盖了多个指标，如准确度，解决的问题数和总问题数，涉及AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces等多个数据集。

创建时间：

2025-04-29

原始信息汇总

数据集概述

基本信息

数据集名称: mlfoundations-dev/opencodereasoning_3k_eval_636d
用途: 预计算的模型输出，用于评估

评估结果

汇总

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	8.3	27.0	38.2	31.0	21.8	43.8	39.5	11.7	15.7

详细评估

AIME24

平均准确率: 8.33% ± 1.35%
运行次数: 10
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

AMC23

平均准确率: 27.00% ± 2.20%
运行次数: 10
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

MATH500

准确率: 38.20%
解答问题数: 191
总问题数: 500

MMLUPro

平均准确率: 31.00% ± 0.00%
运行次数: 1
详细数据:
- 准确率: 31.00%
- 解答问题数: 155
- 总问题数: 500

JEEBench

平均准确率: 21.81% ± 0.59%
运行次数: 3
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

GPQADiamond

平均准确率: 43.77% ± 0.60%
运行次数: 3
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

LiveCodeBench

平均准确率: 39.53% ± 0.30%
运行次数: 3
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

CodeElo

平均准确率: 11.68% ± 0.17%
运行次数: 3
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

CodeForces

平均准确率: 15.75% ± 0.45%
运行次数: 3
详细数据:
- 每次运行的准确率、解答问题数和总问题数详见数据集详情页

搜集汇总

数据集介绍

构建方式

在代码推理评估领域，opencodereasoning_3k_eval_636d数据集通过系统化的多维度测试框架构建而成。该数据集整合了AIME24、AMC23、MATH500等九类标准化测评体系，采用多次运行取平均值的科学方法确保数据稳定性。每个子数据集均包含完整的问题集、解答记录及准确率统计，通过严格的重复实验设计（如AIME24进行10次运行）有效控制评估波动。

使用方法

研究者可通过分层解析各子数据集评估模型能力边界，如使用MATH500测试基础数学能力，通过LiveCodeBench检验实时编程表现。建议采用交叉对比分析策略，将模型在CodeForces（15.7%）与CodeElo（11.7%）的表现差异作为算法优化方向。数据集支持多轮运行结果的稳定性验证，适合作为基准测试套件嵌入模型开发流程。

背景与挑战

背景概述

opencodereasoning_3k_eval_636d数据集由mlfoundations-dev团队构建，旨在为代码推理与生成领域提供预计算模型输出评估基准。该数据集整合了AIME24、AMC23、MATH500等多个权威数学与编程竞赛的评测指标，覆盖从基础算法到复杂数学推理的多维度能力评估。其核心研究问题聚焦于大语言模型在解决数学竞赛题和编程挑战中的泛化能力与推理准确性，为AI系统的逻辑推理能力量化提供了标准化测试框架。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，数学竞赛题往往需要复杂的多步推理和创造性解题策略，当前模型在AIME24等高阶数学题上平均准确率不足10%，揭示出符号推理与抽象思维能力的显著不足；在构建过程中，如何平衡不同难度题目分布、确保评测指标的科学性，以及处理竞赛题目涉及的潜在版权问题，均为数据集构建者带来严峻挑战。多轮测试结果的高方差现象（如AMC23测试中27%±2.2%的波动）进一步凸显了模型输出的不稳定性问题。

常用场景

经典使用场景

在代码推理与自动编程领域，opencodereasoning_3k_eval_636d数据集作为预计算模型输出的基准测试集，被广泛用于评估各类AI模型在数学竞赛题（如AIME、AMC）、编程挑战（如CodeForces）以及综合知识问答（如MMLUPro）中的表现。其多维度评估框架为研究者提供了模型在复杂逻辑推理和代码生成任务中的性能标尺，特别是在跨领域问题求解能力的横向对比方面具有独特价值。

解决学术问题

该数据集有效解决了当前AI领域对代码生成模型系统性评估的迫切需求。通过覆盖数学证明、算法设计、工程问题等九大类任务，它帮助研究者量化模型在抽象推理、符号运算等关键能力上的缺陷。其细粒度分项指标（如LiveCodeBench的代码实时评测、GPQADiamond的精确问答）为突破神经符号系统融合的瓶颈提供了可量化的研究切入点。

实际应用

在实际工业场景中，该数据集的评估体系被应用于智能编程助手的能力认证。科技公司参考其CodeElo评分机制优化IDE插件的代码补全质量，教育机构则基于JEEBench指标设计自适应编程教学系统。特别在竞赛编程平台，CodeForces评估模块已成为筛选AI参赛模型的核心标准之一。

数据集最近研究