kth8/gpt-oss-120b-MMLU-Pro-benchmark

Name: kth8/gpt-oss-120b-MMLU-Pro-benchmark
Creator: kth8
Published: 2026-04-11 01:22:25
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/kth8/gpt-oss-120b-MMLU-Pro-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: openai/gpt-oss-120b datasets: - TIGER-Lab/MMLU-Pro --- Benchmark of [openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b) against [TIGER-Lab/MMLU-Pro](https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro) dataset. Accuracy: 76.0% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 760 | | **Incorrect** | 239 | | **Errors** | 1 | | **Total samples** | 1000 | | **Python tool calls**| 505 | | **Total completion tokens** | 758,803 | Raw stats: ```json { "accuracy": 0.76, "correct": 760, "incorrect": 239, "error": 1, "total": 1000, "python_tool_calls": 505, "completion_tokens": 758803 } ```

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，基准测试数据集的构建需严谨遵循标准化流程。本数据集以开源模型openai/gpt-oss-120b为评估对象，依托TIGER-Lab/MMLU-Pro这一权威多学科知识理解数据集作为基准平台。构建过程中，通过系统化调用Python工具执行模型推理，对1000个样本进行自动化评估，并精确记录模型响应、工具调用次数及令牌消耗等关键指标，最终形成结构化的性能统计报告。

使用方法

研究人员可利用此数据集进行大语言模型的性能分析与比较研究。典型使用场景包括：加载已计算好的性能指标JSON文件，直接获取模型在MMLU-Pro基准上的各项得分；或参照其评估框架，复现实验以验证其他模型在相同基准上的表现。该数据集为模型能力诊断、工具使用行为研究以及推理效率评估提供了即用型基准数据，助力后续模型优化与评估方法改进。

背景与挑战

背景概述

随着大规模语言模型在通用人工智能领域的迅猛发展，对其深度推理与复杂问题解决能力的评估需求日益凸显。在此背景下，TIGER-Lab于2023年发布了MMLU-Pro基准数据集，作为对经典MMLU数据集的扩展与深化。该数据集由研究机构精心构建，旨在系统性地检验模型在跨学科、多步骤推理任务上的性能，其核心研究问题聚焦于评估模型超越表面知识记忆、进行逻辑分析与综合判断的高级认知能力。MMLU-Pro的推出，为衡量语言模型的真实理解水平设立了更为严谨的标准，显著推动了模型评估从广度向深度的范式转变，对促进下一代人工智能系统的研发具有里程碑式的影响力。

当前挑战

MMLU-Pro数据集所针对的核心挑战，在于解决现有基准在评估模型深度推理与复杂问题解决能力方面的不足。传统基准往往侧重于事实性知识检索，难以有效区分模型是依靠记忆还是真正理解进行作答。构建该数据集的过程亦面临多重挑战：一是题目设计需平衡学科广度与推理深度，确保既涵盖STEM、人文等多元领域，又要求多步骤逻辑推导；二是需人工精心编制具有歧义性、需综合上下文信息才能正确解答的高质量题目，以规避模型通过简单模式匹配获得高分的可能性；三是建立可靠的评估框架与评分标准，以精确量化模型在复杂认知任务上的表现。

常用场景

经典使用场景

在大型语言模型评估领域，gpt-oss-120b-MMLU-Pro-benchmark数据集主要用于系统性地衡量模型在复杂多学科知识理解与推理任务上的性能。该数据集基于MMLU-Pro基准构建，涵盖科学、人文、社会科学等多个学科，通过多项选择题形式测试模型对专业知识的掌握程度。其经典使用场景包括模型能力的横向对比，研究者利用该数据集评估不同模型在知识密集型任务上的准确率与鲁棒性，从而为模型优化提供量化依据。

解决学术问题

该数据集有效解决了大型语言模型在专业领域知识评估中缺乏标准化基准的学术问题。传统评估往往局限于狭窄领域或简单任务，难以全面反映模型的多学科综合能力。gpt-oss-120b-MMLU-Pro-benchmark通过覆盖广泛学科的高质量题目，为模型的知识深度与推理精度提供了统一度量标准，推动了模型评估从通用性向专业化、精细化方向发展，对促进模型透明化与可信度研究具有重要意义。

实际应用

在实际应用中，该数据集常被用于指导企业级语言模型的部署与优化。例如，技术团队可依据模型在该数据集上的表现，判断其是否具备处理专业咨询、学术辅助或技术文档生成等任务的能力。同时，教育科技领域也可借鉴其评估框架，开发智能辅导系统，通过分析模型在学科题目上的应答模式，优化教育内容生成与个性化学习路径设计。

数据集最近研究