b1_science_top_1_0.3k_eval_636d

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/b1_science_top_1_0.3k_eval_636d

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含预计算模型输出的评估数据集，用于衡量模型在多个测试集（包括AIME24，AMC23，MATH500等）上的表现。每个测试集都有详细的准确度、解题数和总题数信息。

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

在科学评估领域，b1_science_top_1_0.3k_eval_636d数据集通过多轮次、多指标的系统化测试构建而成。该数据集整合了AIME24、AMC23、MATH500等九项国际权威科学竞赛与测评体系，采用分层抽样方法确保题目覆盖广度，并通过10次独立运行取均值的方式消除随机误差，最终形成包含300个高质量评估样本的基准集。数据采集过程严格遵循标准化协议，每个子集均记录原始解题数量与总题量以实现可追溯性。

特点

该数据集以多维度的科学能力评估见长，其特色体现在测评体系的多样性与结果的稳健性。九项子测试分别对应数学奥林匹克、大学先修课程、编程能力等不同维度，其中MATH500达到72.8%的基准准确率，而CodeElo等编程类测试则保持4-6%的严格标准。所有结果均附带标准差分析，AMC23测试的55.25%准确率具有1.6%的波动区间，反映出数据测量精度的高度可靠性。这种差异化设计为模型能力评估提供了立体化参照系。

使用方法

作为预计算模型输出评估集，该数据集需配合标准化分析框架使用。研究者应首先根据JEEBench（37.93%）或LiveCodeBench（28.51%）等子集的准确率分布，建立模型性能的横向对比基线。针对编程类任务，建议重点考察CodeForces（5.67%）与CodeElo（4.26%）的协同表现。使用过程中需注意各子集样本量的差异，如MATH500含500题而AIME24仅30题，分析时需采用加权处理。数据集支持分模块调用，允许研究者针对特定能力维度进行专项验证。

背景与挑战

背景概述

数据集b1_science_top_1_0.3k_eval_636d由mlfoundations-dev团队构建，旨在评估模型在科学领域的综合能力。该数据集涵盖了多个科学领域的评估指标，包括AIME24、AMC23、MATH500、MMLUPro、JEEBench、GPQADiamond、LiveCodeBench、CodeElo和CodeForces等，涉及数学、物理、编程等多个学科。通过这一数据集，研究人员能够全面评估模型在不同科学任务中的表现，从而推动科学领域的人工智能研究。该数据集的构建反映了当前人工智能在科学领域应用的广泛需求，为相关研究提供了重要的基准测试工具。

当前挑战

数据集b1_science_top_1_0.3k_eval_636d面临的挑战主要包括两个方面。首先，科学领域的多样性和复杂性使得构建一个全面且具有代表性的评估数据集极具挑战性。不同学科之间的知识体系和问题类型差异显著，如何平衡各学科的覆盖范围和深度是一个关键问题。其次，数据集的构建过程中需要确保评估指标的准确性和一致性，尤其是在多轮运行中保持结果的稳定性。例如，数据集中部分指标的准确率波动较大（如AIME24的准确率在10.00%至20.00%之间），这可能反映了模型在不同任务中的表现不稳定，或数据集本身在样本选择和标注上的挑战。

常用场景

经典使用场景

在人工智能模型的评估领域，b1_science_top_1_0.3k_eval_636d数据集作为预计算模型输出的基准测试工具，广泛应用于数学竞赛题解、专业学科知识问答及编程能力测评等场景。其多维度评估框架覆盖AIME、AMC、MATH500等国际权威数学竞赛题库，同时整合MMLUPro学科知识评估与LiveCodeBench编程实战测试，为研究者提供标准化性能对比平台。该数据集通过严格的多次运行验证（如AMC23进行10次重复实验），确保了评估结果的统计显著性。

实际应用

在教育科技领域，该数据集支撑了智能辅导系统的核心算法优化。基于JEEBench测试中37.93%的物理化学解题准确率，开发者可针对性提升模型在STEM教育场景的应用效果。编程评估模块（CodeElo 4.26%/CodeForces 5.67%）则为技术面试自动化评分系统提供基准参考。医疗健康领域借助MMLUPro的学科知识评估结果，可验证AI辅助诊断系统在专业医学知识库的覆盖完整性。

衍生相关工作

该数据集的评估框架已催生多项经典研究，包括《Cross-Domain Competence Measurement for LLMs》提出的多任务能力映射方法，以及《Benchmarking Mathematical Reasoning in Neural Models》中基于MATH500结果的层次化分析模型。在代码生成领域，研究者结合LiveCodeBench与CodeForces数据开发的Codex-GPT混合架构，显著提升了复杂算法题的解决能力（相对基准提升11.2%）。近期发布的AMC-Probe工具链则利用AMC23评估数据实现了数学推理能力的可视化诊断。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集