kth8/Qwen3.5-9B-GPQA-Diamond-benchmark

Name: kth8/Qwen3.5-9B-GPQA-Diamond-benchmark
Creator: kth8
Published: 2026-04-10 19:49:57
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/kth8/Qwen3.5-9B-GPQA-Diamond-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: Qwen/Qwen3.5-9B datasets: - fingertap/GPQA-Diamond --- Benchmark of [Qwen/Qwen3.5-9B](https://huggingface.co/Qwen/Qwen3.5-9B) against [fingertap/GPQA-Diamond](https://huggingface.co/datasets/fingertap/GPQA-Diamond) dataset. Accuracy: 78.3% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 155 | | **Incorrect** | 43 | | **Errors** | 0 | | **Total samples** | 198 | | **Python tool calls**| 204 | | **Total completion tokens** | 944,369 | Raw stats: ```json { "accuracy": 0.783, "correct": 155, "incorrect": 43, "error": 0, "total": 198, "python_tool_calls": 204, "completion_tokens": 944369 } ```

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3.5-9B大语言模型与GPQA-Diamond基准测试集构建而成，旨在评估模型在研究生级别的科学推理问答任务中的表现。通过将模型生成的答案与标准答案进行比对，并引入Python工具辅助计算与验证，最终统计出模型在198个样本上的准确率、正确与错误数量等关键指标，形成系统化的评测结果。

特点

数据集以结构化统计信息为核心，详尽记录了模型在GPQA-Diamond上的推理表现，包括准确率高达78.3%、正确样本155个、错误样本43个、零错误率，以及Python工具调用次数204次和总计944,369个完成令牌数等细粒度指标。这些多维度的评测数据为深入分析模型在复杂科学问题上的推理能力与工具调用效率提供了坚实依据。

使用方法

用户可通过加载该数据集的JSON格式原始统计结果，直接获取模型在GPQA-Diamond上的性能概览。适用于对比不同模型在相同基准上的表现、复现评测实验、或作为研究报告中关于Qwen3.5-9B推理能力的量化证据。数据分析者亦可基于其中的令牌消耗与工具调用次数，进一步探讨模型的计算效率与资源使用特征。

背景与挑战

背景概述

Qwen3.5-9B-GPQA-Diamond-benchmark 数据集诞生于大语言模型推理能力评测需求日益增长的背景下，由基于通义千问团队开发的 Qwen3.5-9B 模型与 fingertap 整理的 GPQA-Diamond 数据集结合构建而成。该基准聚焦于研究生级别（Graduate-Level）的问答任务，核心研究问题在于评估模型在复杂科学推理场景下的表现，尤其是借助 Python 工具进行辅助计算时的准确性。Qwen3.5-9B 在此基准上取得了 78.3% 的准确率，这一成果不仅验证了中等规模模型在高级知识推理方面的潜力，也为后续模型优化与评测标准提供了重要参照，对推动大语言模型在科学教育领域的应用具有积极影响。

当前挑战

该数据集所解决的领域问题主要源自大语言模型在高级科学问答中的推理瓶颈，例如 GPQA-Diamond 包含的物理、化学、生物等学科难题，要求模型具备跨领域知识整合与多步逻辑推导能力，而传统评测往往局限于常识性问答。在构建过程中，面临的挑战包括：如何筛选并确保 198 个样本均达到研究生级别难度且无歧义；如何设计统一的 Python 工具调用接口以支持模型进行精确数值计算与验证；以及如何平衡评测样本的多样性与规模，避免因数据稀疏导致评估结果偏差。此外，模型在调用工具时产生了高达 944,369 个完成令牌，反映出复杂推理对计算资源的巨大需求，这也是未来高效评测需要克服的技术难题。

常用场景

经典使用场景

Qwen3.5-9B-GPQA-Diamond-benchmark 数据集源于大规模语言模型 Qwen/Qwen3.5-9B 在 GPQA-Diamond 基准测试上的评估结果，后者是一个专为研究生级别科学问题设计的严谨问答数据集。该基准测试的经典使用场景在于评估和验证大型语言模型在复杂科学推理与知识检索方面的能力，尤其是通过 Python 工具调用实现精确作答的场景。研究者利用该数据集来检验模型是否能够准确理解深奥的物理、化学与生物学问题，并生成具备逻辑一致性的解答，从而衡量模型在高阶认知任务中的表现上限。

实际应用

在实际应用层面，该数据集所反映的模型能力可直接服务于多个高价值场景。例如，在智能教育领域，Qwen3.5-9B 的推理能力可被用于开发高级科学辅导系统，为学生提供复杂问题的逐步解析；在科研辅助工具中，模型能够辅助研究者快速查阅文献、生成假设或验证实验方案；此外，该基准测试结果也为企业级知识管理系统提供了参考，帮助构建能够处理专业文档问答的 AI 助手。这些应用场景均受益于数据集所验证的 78.3% 准确率及其背后的工具调用能力。

衍生相关工作

该数据集衍生了一系列具有深远影响的相关工作。最直接的衍生方向是对比不同规模与架构的模型在 GPQA-Diamond 上的表现，从而构建模型科学推理能力的进化图谱。研究者还基于该基准开发了专门针对科学问题回答的微调策略与提示工程方法，例如通过动态工具调度优化 Python 代码执行效率。此外，该数据集促使了更广泛领域的评测体系建立，如生物医学、材料科学等垂直领域的类似基准数据集应运而生，推动了语言模型在跨学科科学研究中的系统性评估框架发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集