kth8/Qwen3.5-27B-AWQ-4bit-GPQA-Diamond-benchmark

Name: kth8/Qwen3.5-27B-AWQ-4bit-GPQA-Diamond-benchmark
Creator: kth8
Published: 2026-04-10 19:34:30
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/kth8/Qwen3.5-27B-AWQ-4bit-GPQA-Diamond-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: cyankiwi/Qwen3.5-27B-AWQ-4bit datasets: - fingertap/GPQA-Diamond --- Benchmark of [cyankiwi/Qwen3.5-27B-AWQ-4bit](https://huggingface.co/cyankiwi/Qwen3.5-27B-AWQ-4bit) against [fingertap/GPQA-Diamond](https://huggingface.co/datasets/fingertap/GPQA-Diamond) dataset. Accuracy: 76.3% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 151 | | **Incorrect** | 46 | | **Errors** | 1 | | **Total samples** | 198 | | **Python tool calls**| 225 | | **Total completion tokens** | 659,879 | Raw stats: ```json { "accuracy": 0.763, "correct": 151, "incorrect": 46, "error": 1, "total": 198, "python_tool_calls": 225, "completion_tokens": 659879 } ```

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

该数据集旨在评测Qwen3.5-27B-AWQ-4bit模型在GPQA-Diamond基准上的表现。构建方式依托于cyankiwi/Qwen3.5-27B-AWQ-4bit这一经过4比特AWQ量化的模型，并采用fingertap/GPQA-Diamond数据集作为评测样本。模型在Python工具辅助下，对198个样本进行推理与回答，最终通过统计正确、错误与错误样本数量，并计算总完成令牌数，系统性地评估其准确率。整个构建过程体现了量化模型在复杂问答任务上的标准化评测流程。

特点

该数据集以简洁而关键的评测结果为核心，突出展示了模型在GPQA-Diamond任务上的准确率达76.3%。数据记录详尽，包含正确数（151）、错误数（46）及错误样本数（1），并统计了Python工具调用次数（225）与总完成令牌数（659,879）。这些指标共同勾勒出模型在推理能力与资源消耗上的综合表现，为量化模型的实际部署提供了直观且可量化的参考依据。

使用方法

使用该数据集时，可直接参考其评测统计结果，以了解Qwen3.5-27B-AWQ-4bit模型在GPQA-Diamond基准上的性能。用户可将准确率（76.3%）作为关键指标，对比其他模型或量化方案的优劣。此外，Python工具调用次数与完成令牌数可用于评估模型的推理效率与计算成本，便于在资源受限场景下进行模型选型与优化决策。

背景与挑战

背景概述

该数据集诞生于大语言模型评估领域迅速发展的背景之下，由研究者cyankiwi与fingertap共同构建，旨在量化Qwen3.5-27B-AWQ-4bit模型在复杂科学推理任务上的表现。核心研究问题聚焦于量化模型在GPQA-Diamond基准上的准确率与工具调用效率，其中76.3%的准确率揭示了当前模型在高难度多选题上的潜力与局限。作为开源社区中模型性能评估的实证案例，该数据集为后续模型优化与量化策略选择提供了可复现的基准，尤其对低比特量化模型的推理能力验证具有重要参考价值。

当前挑战

数据集所面临的挑战首先来自领域问题本身：GPQA-Diamond涵盖研究生级别的科学推理问题，要求模型具备跨学科知识整合与严谨逻辑推导能力，而当前模型仅76.3%的准确率表明在复杂科学问题上仍有显著提升空间。构建过程中，挑战集中于确保评估的公平性与完整性：需平衡量化模型与全精度模型之间的性能差异，避免因量化精度损失导致评估偏差；同时需处理工具调用失败（如错误1例）和长上下文推理（总完成token数达659,879）带来的计算开销与稳定性问题。

常用场景

经典使用场景

在自然语言处理与知识推理的交汇领域，该数据集被广泛用于评估大型语言模型在复杂科学问答任务上的表现。Qwen3.5-27B-AWQ-4bit-GPQA-Diamond-benchmark 以 Google-Proof QA（GPQA）Diamond 子集为基准，专注于研究生级别的高难度问题，涵盖物理、化学、生物等学科。研究者通过 Python 工具调用实现推理过程追踪，从而量化模型在推理深度、工具使用能力及多步计算上的表现。该场景不仅检验模型对专业知识的掌握程度，更考察其将抽象问题转化为可执行代码的推理链条完整性，成为衡量前沿语言模型科学素养的重要标尺。

解决学术问题

该数据集针对大型语言模型在高阶科学推理中面临的“知识边界模糊”与“推理过程不可控”两大难题提供了解决方案。传统评估多依赖选择题答案匹配，难以揭示模型在复杂多步推理中的真实错误模式。该基准通过引入精确的准确率（76.3%）与工具调用次数（225次）等细粒度指标，使研究者能够定位模型在逻辑跳跃、数学计算或代码执行中的具体缺陷。这一设计推动了从“答案正确性”到“推理可信度”的学术范式转变，为开发更具可解释性和鲁棒性的科学推理模型奠定了实证基础。

衍生相关工作

该数据集催生了一系列围绕模型推理链可解释性与工具增强型架构的经典工作。基于其工具调用统计数据，研究者提出了“工具调用密度”与“错误回溯分析”等新评估维度，衍生出如 Tool-Augmented LLM（TA-LLM）与 Chain-of-Thought with Code（CoT-Code）等混合推理框架。这些工作进一步将 GPQA-Diamond 的评测范式扩展到多模态科学推理、实时知识检索等领域，推动了如 Qwen-Agent、CodeLlama 等模型在科学计算场景下的针对性优化，形成了一条从评测基准到算法创新的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集