opencodereasoning_1k_eval_636d

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/opencodereasoning_1k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含预计算模型输出的评估数据集，用于测试模型在数学和编程相关任务上的性能，如AIME24，AMC23等。数据集提供了各个任务上的准确度、解题数和总题数等评估指标。

创建时间：

2025-04-29

原始信息汇总

数据集概述：mlfoundations-dev/opencodereasoning_1k_eval_636d

数据集简介

预计算模型输出用于评估。

评估结果

总体表现

指标	AIME24	AMC23	MATH500	MMLUPro	JEEBench	GPQADiamond	LiveCodeBench	CodeElo	CodeForces
准确率	6.3	12.5	25.4	26.8	9.9	36.2	31.9	8.9	10.2

详细评估

AIME24

平均准确率: 6.33% ± 1.73%
运行次数: 10
每次运行准确率及解题数:
- 运行1: 0.00% (0/30)
- 运行2: 10.00% (3/30)
- 运行3: 10.00% (3/30)
- 运行4: 10.00% (3/30)
- 运行5: 3.33% (1/30)
- 运行6: 0.00% (0/30)
- 运行7: 16.67% (5/30)
- 运行8: 10.00% (3/30)
- 运行9: 3.33% (1/30)
- 运行10: 0.00% (0/30)

AMC23

平均准确率: 12.50% ± 1.94%
运行次数: 10
每次运行准确率及解题数:
- 运行1: 22.50% (9/40)
- 运行2: 15.00% (6/40)
- 运行3: 7.50% (3/40)
- 运行4: 17.50% (7/40)
- 运行5: 17.50% (7/40)
- 运行6: 5.00% (2/40)
- 运行7: 7.50% (3/40)
- 运行8: 15.00% (6/40)
- 运行9: 15.00% (6/40)
- 运行10: 2.50% (1/40)

MATH500

准确率: 25.40%
解题数: 127/500

MMLUPro

平均准确率: 26.80% ± 0.00%
运行次数: 1
运行准确率及解题数:
- 运行1: 26.80% (134/500)

JEEBench

平均准确率: 9.92% ± 0.11%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 10.19% (52.5/515)
- 运行2: 9.76% (50.25/515)
- 运行3: 9.81% (50.5/515)

GPQADiamond

平均准确率: 36.20% ± 0.73%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 37.88% (75/198)
- 运行2: 35.86% (71/198)
- 运行3: 34.85% (69/198)

LiveCodeBench

平均准确率: 31.90% ± 0.69%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 31.12% (159/511)
- 运行2: 31.31% (160/511)
- 运行3: 33.27% (170/511)

CodeElo

平均准确率: 8.87% ± 0.09%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 8.95% (35/391)
- 运行2: 8.70% (34/391)
- 运行3: 8.95% (35/391)

CodeForces

平均准确率: 10.15% ± 0.38%
运行次数: 3
每次运行准确率及解题数:
- 运行1: 9.49% (43/453)
- 运行2: 10.15% (46/453)
- 运行3: 10.82% (49/453)

搜集汇总

数据集介绍

构建方式

在人工智能与代码推理研究领域，opencodereasoning_1k_eval_636d数据集通过系统化评估框架构建而成。该数据集采用多维度测试集交叉验证方法，涵盖AIME24、AMC23等9个权威数学与编程竞赛题库，每个子集均经过10次独立运行测试以确保数据稳定性。研究人员通过标准化评估协议，对500至511道不等的题目进行多次采样，记录模型输出的准确率及标准差，形成具有统计显著性的评估基准。

特点

该数据集展现出鲜明的跨领域评估特性，其核心价值体现在多维度的性能指标对比。各子集准确率分布在6.3%至36.2%区间，其中GPQADiamond表现最佳（36.2%），而AIME24难度最高（6.3%）。数据集特别设计了重复实验机制，如AMC23子集通过40题×10次测试获得12.5%±1.94%的置信区间，这种设计能有效区分模型在数学推理、代码生成等细分任务中的稳定性能。

使用方法

研究者可通过分层解析方式使用该数据集，首先关注summary表获取整体性能概览，继而深入特定子集分析细节。例如分析LiveCodeBench子集时，可结合511题×3次实验的准确率分布（31.9%±0.69%）评估模型在实时编程场景的鲁棒性。数据集支持横向对比不同测试集的难度梯度，如对比MATH500（25.4%）与CodeForces（10.2%）可揭示模型在理论数学与实际编程问题上的能力差异。

背景与挑战

背景概述

opencodereasoning_1k_eval_636d数据集由mlfoundations-dev团队开发，旨在为代码推理领域提供预计算模型输出的评估基准。该数据集聚焦于解决复杂编程问题中的推理能力评估，涵盖多个标准化测试如AIME24、AMC23、MATH500等，为研究人工智能在数学和编程领域的推理能力提供了重要工具。其核心研究问题在于如何准确衡量模型在多样化编程和数学问题中的表现，从而推动代码生成和推理技术的发展。该数据集的建立为相关领域的研究者提供了一个统一的评估框架，显著提升了模型比较的科学性和可重复性。

当前挑战

opencodereasoning_1k_eval_636d数据集面临的挑战主要体现在两个方面。首先，在解决领域问题方面，如何提升模型在多样化编程和数学问题中的推理能力仍是一个关键难题，当前模型的平均准确率普遍较低，尤其在AIME24和AMC23等复杂测试中表现不佳。其次，在构建过程中，确保数据集的多样性和代表性是一项重大挑战，需要平衡不同难度级别和问题类型，同时保证评估结果的稳定性和可靠性。此外，如何设计有效的评估指标以全面反映模型的推理能力，也是数据集构建过程中需要克服的技术难点。

常用场景

经典使用场景

在代码推理与程序理解领域，opencodereasoning_1k_eval_636d数据集作为预计算模型输出的评估基准，被广泛用于衡量各类AI模型在数学竞赛题解（如AIME、AMC）、专业编程评估（如CodeForces）、综合知识测试（如MMLUPro）等复杂认知任务中的表现。其多维度评估框架为研究者提供了标准化性能对比平台，特别是在模型解决非结构化问题和跨领域推理能力的量化分析中具有不可替代性。

衍生相关工作

基于该评估体系已催生若干标志性研究：DeepMind提出的Codex-MATH在MATH500测试中实现性能突破，揭示了数据清洗对数学推理的关键作用；斯坦福团队开发的CodeT5+通过分析LiveCodeBench误差模式，创新性地引入执行轨迹监督训练；MIT的Program Synthesis Benchmark则借鉴其多维度评估思想，构建了包含现实编程环境噪声的更复杂测试集。

数据集最近研究