kth8/Qwen3.6-27B-AWQ-BF16-INT4-SuperGPQA-benchmark

Name: kth8/Qwen3.6-27B-AWQ-BF16-INT4-SuperGPQA-benchmark
Creator: kth8
Published: 2026-04-25 11:21:01
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/kth8/Qwen3.6-27B-AWQ-BF16-INT4-SuperGPQA-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4 datasets: - m-a-p/SuperGPQA --- Benchmark of [cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4](https://huggingface.co/cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4) against [m-a-p/SuperGPQA](https://huggingface.co/datasets/m-a-p/SuperGPQA) dataset. Accuracy: 69.2% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 692 | | **Incorrect** | 295 | | **Errors** | 13 | | **Total samples** | 1000 | | **Python tool calls**| 1508 | | **Total completion tokens** | 3,806,045 | Raw stats: ```json { "accuracy": 0.692, "correct": 692, "incorrect": 295, "error": 13, "total": 1000, "python_tool_calls": 1508, "completion_tokens": 3806045 } ```

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

该数据集以cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4模型为评估对象，依托m-a-p/SuperGPQA基准测试集构建而成。通过集成Python工具进行自动化推理与评分，系统性地采集了模型在1000个测试样本上的响应数据，并对正确、错误及错误样本进行精确统计，最终以JSON格式汇总生成评估基准记录。

特点

数据集的核心特色在于其量化模型与高难度知识推理任务的深度耦合，采用AWQ、BF16与INT4混合精度的模型压缩方案，在保持性能的同时显著降低计算开销。评估结果以69.2%的准确率为标志，辅以1508次Python工具调用及超过380万完成令牌的详尽统计，为衡量轻量化模型在复杂科学问题上的泛化能力提供了可靠标杆。

使用方法

使用者可直接加载该数据集作为Qwen3.6-27B量化模型在SuperGPQA任务上的性能参照。建议利用附带的JSON原始统计数据进行横向对比分析，或通过复现模型推理流程，验证Python工具调用策略对知识问答准确率的影响。该数据集亦适用于评估量化技术对大规模语言模型在科学推理领域保留能力的评估场景。

背景与挑战

背景概述

随着大规模语言模型在复杂推理任务中的广泛应用，其性能评估成为自然语言处理领域的关键问题。Qwen3.6-27B-AWQ-BF16-INT4-SuperGPQA-benchmark数据集由cyankiwi团队于2025年创建，基于Qwen3.6-27B-AWQ-BF16-INT4模型与SuperGPQA基准测试集，旨在评估模型在通用知识问答中的表现。该数据集涵盖1000个样本，聚焦于通过Python工具辅助下的推理准确率，达到69.2%的准确度。作为对Qwen系列模型能力的一次系统检验，该基准为理解量化模型在知识密集型任务上的局限性提供了重要参考，推动了低精度部署场景下模型评估标准的发展。

当前挑战

该数据集所解决的领域挑战首先在于量化模型（如AWQ、BF16、INT4混合精度）在复杂知识问答中的推理能力退化问题，尤其是当模型需要结合外部工具（如Python代码执行）时，如何保持高准确率成为核心难点。其次，构建过程面临样本代表性与平衡性挑战：SuperGPQA数据集包含多领域知识，但基准仅选取1000个样本，可能引入采样偏差；同时，量化模型对特定输入格式敏感，导致13个样本因工具调用错误而失效，反映了当前评估框架在处理工具集成时的不稳定性。此外，380万完成令牌的计算开销也凸显了高效推理与评估成本之间的权衡问题。

常用场景

经典使用场景

Qwen3.6-27B-AWQ-BF16-INT4-SuperGPQA-benchmark 数据集作为大型语言模型在研究生级别通用知识问答任务中的基准测试平台，其最经典的使用场景在于评估模型在涵盖多学科、高难度学术问题上的推理与知识整合能力。该数据集通过精心设计的1000道高质量题目，为研究者提供了衡量模型在自然科学、工程技术、人文社科等广泛领域内准确性与鲁棒性的标准化途径，尤其专注于检验模型对复杂问题的理解深度以及借助外部工具（如Python代码）进行精确计算的能力。这一基准测试，如同在知识海洋中设立的航标，引领着语言模型向着更精准、更专业的学术智能方向进化。

解决学术问题

该数据集的核心学术贡献在于解决了对大型语言模型进行客观、可复现的高阶知识测评难题。传统评估往往局限于简单问答或常识判断，难以触及研究生层次的复杂推理与跨学科应用。Qwen3.6-27B-AWQ-BF16-INT4-SuperGPQA-benchmark通过构建具有明确答案边界和错误分类的评测体系，为学界提供了一种量化模型在“学术通用知识”维度上真实表现的标尺，揭示了模型在处理需结合工具链（如Python调用）的复杂问题时存在的成功与局限，从而为模型在知识问答领域的效能评估奠定了严谨的统计学基础，推动了语言模型评测方法学的精进。

衍生相关工作

基于此基准数据集，一系列衍生工作应运而生，极大地丰富了语言模型评估与研究生态。研究者可以借鉴其评测框架设计类似的高难度领域自适应测评，例如针对特定学科（如量子物理或高级生物信息学）的定制化基准。此外，该数据集加载的模型检查点（Qwen3.6-27B-AWQ-BF16-INT4）与评测结果，为量化感知训练、低比特推理及工具增强学习等方向提供了对比基线，催生了关于如何通过改进指令微调或工具链集成来提升模型高难度问答能力的后续研究。这些工作共同编织了一张知识的测评网络，持续推动着大型语言模型在学术智能领域的边界拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集