openthoughts2_10k_eval_2e29
收藏Hugging Face2025-04-23 更新2025-04-24 收录
下载链接:
https://huggingface.co/datasets/mlfoundations-dev/openthoughts2_10k_eval_2e29
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于评估的预计算模型输出。它详细提供了各种基准测试(如AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo、AIME25、HLE和LiveCodeBenchv5)的准确度结果和统计数据。每个基准测试都有多个运行结果,包括准确度、解决的问题数量和总问题数量。
创建时间:
2025-04-21
搜集汇总
数据集介绍

构建方式
在机器学习模型评估领域,openthoughts2_10k_eval_2e29数据集通过系统化的基准测试框架构建而成。该数据集采用多轮次交叉验证方法,针对12个专业评估维度(包括AIME24、AMC23等数学竞赛题库及MMLUPro综合能力测试)进行模型输出预计算。每个评估维度均设置固定题量的标准化测试集,通过10次独立运行获取稳定性数据,部分项目如MATH500采用单次大规模抽样以平衡效率与可靠性。
特点
该数据集展现出鲜明的多维评估特性,其核心价值体现在覆盖数学推理(AIME系列79.2%准确率)、编程能力(LiveCodeBench 25.9%)等差异化认知维度。数据呈现显著的分层特征,如数学竞赛AMC23达到59.2%准确率,而高阶逻辑评估HLE仅0.3%,这种离散分布为模型能力边界研究提供了精确坐标。所有结果均标注标准差(如AIME24±1.25%),确保评估结果具有统计显著性。
使用方法
研究者可通过该数据集开展横向模型对比研究,重点关注不同认知维度下的性能差异。典型应用场景包括:基于AMC23与MATH500的数学推理能力分析、通过CodeForces与LiveCodeBenchv5的编程能力评估。数据集采用结构化表格存储,支持直接提取特定维度的平均准确率及波动范围,如JEEBench三组实验数据揭示44.26%±0.74%的稳定表现。建议配合原始题库内容进行细粒度错误分析,以揭示模型的知识盲区。
背景与挑战
背景概述
openthoughts2_10k_eval_2e29数据集由mlfoundations-dev团队构建,旨在为机器学习模型的性能评估提供标准化基准。该数据集聚焦于多领域知识推理与代码生成能力的综合测评,涵盖数学竞赛(AIME、AMC)、专业学科(MMLUPro)、工程教育(JEEBench)及编程挑战(LiveCodeBench、CodeForces)等12个评估维度。其创新性在于通过预计算模型输出结果,实现了跨任务、跨模态的模型能力量化比较,为人工智能基础模型的泛化性能研究提供了重要数据支撑。
当前挑战
该数据集面临的核心挑战体现在评估维度的异构性整合:数学竞赛问题需要符号推理能力,编程任务依赖算法实现精度,而专业学科测试则要求领域知识深度。构建过程中需平衡不同评估指标的敏感性,例如HLE任务0.33%的极低准确率与MATH500任务79.2%的高准确率形成显著跨度,这对评估体系的量纲统一提出严峻考验。同时,预计算输出结果的版本控制(如LiveCodeBenchv5与旧版的并行存在)也增加了数据一致性的维护难度。
常用场景
经典使用场景
在人工智能模型评估领域,openthoughts2_10k_eval_2e29数据集作为预计算模型输出的基准测试工具,被广泛应用于衡量模型在数学推理、代码生成等复杂认知任务中的表现。该数据集通过AMC23、MATH500等标准化测试模块,为研究者提供了量化模型在竞赛级数学问题解决能力的可靠指标,特别是在处理非结构化数学证明和算法设计等高阶思维任务时展现出独特价值。
解决学术问题
该数据集有效解决了大语言模型在专业领域评估中缺乏标准化基准的学术难题。通过整合AIME数学竞赛、Codeforces编程挑战等权威题库,其多维度评估体系填补了现有测评方法在跨学科复杂任务上的空白。MMLUPro和JEEBench等模块的设计显著提升了模型在STEM学科专业知识评估的可解释性,为模型能力边界研究提供了关键数据支持。
衍生相关工作
该数据集的发布催生了多项重要研究,包括基于CodeElo指标的模型能力进化分析框架,以及利用AMC23测试结果开发的数学推理能力增强方法。在ICLR2023等顶会中,已有研究团队借助该数据集的MATH500模块,建立了新的数学问题表示学习范式,推动了认知智能领域的技术突破。
以上内容由遇见数据集搜集并总结生成



