kth8/gpt-oss-120b-SuperGPQA-benchmark

Name: kth8/gpt-oss-120b-SuperGPQA-benchmark
Creator: kth8
Published: 2026-04-11 00:59:13
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/kth8/gpt-oss-120b-SuperGPQA-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: openai/gpt-oss-120b datasets: - m-a-p/SuperGPQA --- Benchmark of [openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b) against [m-a-p/SuperGPQA](https://huggingface.co/datasets/m-a-p/SuperGPQA) dataset. Accuracy: 54.900000000000006% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 549 | | **Incorrect** | 448 | | **Errors** | 3 | | **Total samples** | 1000 | | **Python tool calls**| 889 | | **Total completion tokens** | 1,301,333 | Raw stats: ```json { "accuracy": 0.549, "correct": 549, "incorrect": 448, "error": 3, "total": 1000, "python_tool_calls": 889, "completion_tokens": 1301333 } ```

许可证：Apache-2.0 语言：英语基础模型：openai/gpt-oss-120b 测试数据集：m-a-p/SuperGPQA 本基准测试基于[m-a-p/SuperGPQA](https://huggingface.co/datasets/m-a-p/SuperGPQA)数据集，对[openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)模型开展性能评测。经Python工具计算，模型准确率为54.900000000000006%。评测指标与对应数值如下表： | 评测指标 | 数值 | |----------------------|---------------| | **正确样本数** | 549 | | **错误样本数** | 448 | | **异常数** | 3 | | **总样本量** | 1000 | | **Python工具调用次数**| 889 | | **总补全Token数** | 1,301,333 | 原始统计数据： json { "accuracy": 0.549, "correct": 549, "incorrect": 448, "error": 3, "total": 1000, "python_tool_calls": 889, "completion_tokens": 1301333 }

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

在人工智能评测领域，基准测试数据集的构建对于衡量模型性能至关重要。gpt-oss-120b-SuperGPQA-benchmark数据集正是基于这一需求而设计，其核心构建方式是将开源的大型语言模型openai/gpt-oss-120b与专业的科学问答数据集SuperGPQA相结合，通过自动化脚本执行模型推理并收集结果。具体而言，该过程涉及对SuperGPQA数据集中1000个样本的逐一处理，模型在解答过程中可调用Python工具辅助计算，最终系统化地记录下每道题目的回答正确性、工具调用次数及消耗的token数量，从而形成一个结构化的性能评估基准。

特点

该数据集展现出若干鲜明特点，主要体现在其评测内容的专业性与评估维度的综合性上。数据集依托于SuperGPQA，其问题涵盖广泛的科学领域，对模型的知识深度与推理能力提出了较高要求。评测结果不仅汇报了54.9%的整体准确率，还细致区分了正确、错误及执行出错的样本数量，并额外统计了模型为解决问题所进行的889次Python工具调用以及超过130万的总补全token消耗。这些多维度的指标共同构成了一个超越简单准确率的、更贴近模型实际应用成本的性能画像。

使用方法

对于研究者与开发者而言，该数据集的主要用途在于横向比较与模型诊断。用户可以直接引用数据集报告中已计算好的各项指标，作为gpt-oss-120b模型在复杂科学问答任务上性能的一个客观基准。更进一步的，数据集提供的原始统计信息，如工具调用频率与token消耗，能够帮助分析模型在解决不同类型问题时的资源依赖模式与潜在弱点。这为后续的模型优化方向，例如改进工具使用策略或降低推理成本，提供了宝贵的定量依据。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务中的广泛应用，评估其专业领域知识掌握与多步骤问题解决能力成为人工智能研究的关键议题。gpt-oss-120b-SuperGPQA-benchmark数据集应运而生，由研究团队基于开源模型gpt-oss-120b与SuperGPQA基准构建，旨在系统衡量模型在高级科学及通用问题解答中的性能。该数据集聚焦于检验模型融合工具调用与深层逻辑推理的效能，为推进语言模型在专业化、高难度任务中的实用化提供了重要评估框架。

当前挑战

该数据集致力于应对专业领域复杂问答的挑战，其核心在于评估模型处理跨学科、多步骤推理问题的能力，这要求模型不仅需具备广泛的知识储备，还需精准调用外部工具以执行计算或检索。在构建过程中，挑战主要源于确保评估样本的多样性与难度平衡，同时需设计可靠的自动化评估流程以处理大规模工具调用与答案验证，避免因工具集成或解析错误导致评估偏差。

常用场景

经典使用场景

在大型语言模型评估领域，gpt-oss-120b-SuperGPQA-benchmark数据集主要用于测试模型在复杂推理任务中的性能。该数据集基于SuperGPQA构建，涵盖多学科知识，要求模型通过Python工具调用进行精确计算和逻辑推导。经典使用场景涉及对模型进行端到端的基准测试，评估其在处理高难度科学问题时的准确性和工具使用能力，为模型优化提供量化依据。

解决学术问题

该数据集有效解决了大型语言模型在专业领域知识推理中评估标准缺失的学术问题。通过提供结构化、高难度的多学科问题集，它帮助研究者量化模型在复杂场景下的表现，识别模型在工具调用、逻辑链构建等方面的局限性。其意义在于推动了模型评估从通用任务向专业化、精细化方向发展，为模型能力边界探索提供了可靠基准。

衍生相关工作

围绕该数据集衍生的经典工作主要包括新型评估框架的开发与模型增强技术的研究。例如，基于其测试结果，研究者提出了改进工具调用机制的微调策略，并设计了多模态推理评估扩展。这些工作进一步推动了专业领域评估数据集的建设，促进了如领域自适应学习、推理链可解释性等前沿方向的发展，丰富了AI评估生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集