kth8/Qwen3.5-4B-Claude-Opus-Reasoning-Distill-SuperGPQA-benchmark
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/kth8/Qwen3.5-4B-Claude-Opus-Reasoning-Distill-SuperGPQA-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
base_model: TeichAI/Qwen3.5-4B-Claude-Opus-Reasoning-Distill
datasets:
- m-a-p/SuperGPQA
---
Benchmark of [TeichAI/Qwen3.5-4B-Claude-Opus-Reasoning-Distill](https://huggingface.co/TeichAI/Qwen3.5-4B-Claude-Opus-Reasoning-Distill) against [m-a-p/SuperGPQA](https://huggingface.co/datasets/m-a-p/SuperGPQA) dataset.
Accuracy: 41.5% with Python tool.
| Metric | Value |
|----------------------|---------------|
| **Correct** | 415 |
| **Incorrect** | 573 |
| **Errors** | 11 |
| **Total samples** | 999 |
| **Python tool calls**| 2527 |
| **Total completion tokens** | 4,149,159 |
Raw stats:
```json
{
"accuracy": 0.415,
"correct": 415,
"incorrect": 573,
"error": 11,
"total": 999,
"python_tool_calls": 2527,
"completion_tokens": 4149159
}
```
提供机构:
kth8
搜集汇总
数据集介绍

构建方式
本数据集以TeichAI/Qwen3.5-4B-Claude-Opus-Reasoning-Distill模型为基准,在m-a-p/SuperGPQA评测数据集上进行了系统性推理蒸馏与性能评估。构建过程基于Python工具驱动的自动化流水线,对999个样本逐一执行推理任务,通过统计正确、错误及异常输出的分布,精确量化模型在复杂问答场景下的表现。所有推理结果和元数据均被完整记录,形成了涵盖准确性、令牌消耗及工具调用频率的结构化基准集合。
特点
该数据集的核心特色在于其双重测量维度:一方面呈现了模型在SuperGPQA基准上的绝对准确率(41.5%),另一方面详细披露了推理过程中的资源消耗细节,包括2527次Python工具调用与超过414万完成令牌的使用情况。此外,数据集中清晰标注了415个正确样本、573个错误样本及11个异常样本的分布,为分析模型推理模式与失误类型提供了宝贵的细粒度线索。
使用方法
使用者可直接加载数据集中存储的原始统计JSON块,以程序化方式复现准确性评估或进行后续分析。推荐将Python工具调用次数与令牌消耗量作为评估推理效率的关键指标,结合正确/错误样本的标识,开展模型鲁棒性、推理深度及资源利用率的对比研究。该数据集亦可作为蒸馏效果验证的参考基准,适用于多模型间的标准化性能比较。
背景与挑战
背景概述
该数据集由TeichAI团队于近期创建,旨在对基于Qwen3.5-4B基座模型、融合Claude Opus推理蒸馏技术的模型变体(TeichAI/Qwen3.5-4B-Claude-Opus-Reasoning-Distill)进行系统性评估。核心研究问题聚焦于探究通过大型语言模型推理能力蒸馏至小型模型的可行性及其效能,特别是在复杂知识推理基准SuperGPQA上的表现。该数据集记录了该蒸馏模型在999个样本上的准确率(41.5%),为理解推理蒸馏在轻量级模型中的能力边界提供了实证基准。其对相关领域的影响力体现在:为知识蒸馏与强化推理能力交叉方向的研究者提供了可复现的评估框架,揭示了蒸馏模型在高度专业化问答任务上的局限与潜力。
当前挑战
该数据集所解决的领域问题挑战在于:中小规模语言模型在面对如SuperGPQA这类需要多步逻辑与深度领域知识的高难度基准时,普遍存在推理深度不足与知识覆盖匮乏的困境。构建过程中遭遇的挑战包括:其一,大规模训练样本(近千条复杂问答对)的推导需要模型调用数千次Python工具,计算资源与时间成本高昂;其二,蒸馏过程中确保Claude Opus高质量推理模板的有效迁移与避免噪声放大,对训练策略提出了严苛要求;其三,最终仅41.5%的准确率反映出模型在逻辑连贯性与错误修正机制上仍有显著短板,验证了推理蒸馏在小参数规模下难以完全复现大模型推理能力的内在瓶颈。
常用场景
经典使用场景
在大型语言模型评测领域,该数据集作为Qwen3.5-4B模型经过Claude Opus推理蒸馏后在SuperGPQA基准上的评测结果集合,其经典用途在于衡量轻量级模型在通用知识问答任务中的推理能力。研究者可借助此数据集评估小型化模型在保留知识广度的同时,能否通过推理蒸馏技术实现性能跃升,从而验证模型压缩与知识迁移策略的有效性。
实际应用
实际应用中,此数据集可作为模型选型与部署决策的参考依据。开发者在构建问答系统、智能客服或教育辅助工具时,可参照该数据集的评测结果权衡模型能力与计算资源,选择Qwen3.5-4B这类经推理蒸馏的小模型实现高效推理。同时,其记录的Python工具调用次数与完成token数,能为优化API调用成本和响应速度提供实证数据。
衍生相关工作
该数据集衍生出一系列探索模型蒸馏与评估标准化的相关研究。例如,研究者可基于此数据集对比不同蒸馏策略(如Claude Opus vs. GPT-4)对小模型推理精度的影响;或进一步修正SuperGPQA基准以适配多语言场景,衍生出跨语言推理评测集。此外,数据集中的错误样本分析可催生针对小模型推理短板的改进工作,如引入对抗训练或检索增强生成技术。
以上内容由遇见数据集搜集并总结生成



