Quantum Katas Benchmark

github2026-05-06 更新2026-05-09 收录

下载链接：

https://github.com/qiskit-community/Qiskit-QuantumKatas

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含26个类别的350个量子计算任务，源自微软的QuantumKatas并翻译为Qiskit。

This dataset comprises 350 quantum computing tasks across 26 categories, derived from Microsoft's QuantumKatas and translated to Qiskit.

创建时间：

2026-05-02

原始信息汇总

数据集概述

Quantum Katas Benchmark 是一个用于评估大语言模型（LLM）在量子计算任务上表现的数据集和基准测试框架。

核心信息

数据集名称: Quantum Katas Benchmark
原始来源: 基于 Microsoft 的 QuantumKatas 项目，并翻译为 Qiskit 格式。
数据集规模: 包含 350 个量子计算任务，覆盖 26 个类别。
数据格式: 任务以 JSONL 格式存储，文件为 dataset/qiskit_quantumkatas.jsonl。每个任务包含：task_id（任务ID）、prompt（提示）、canonical_solution（标准解答）、test（测试函数）和 entry_point（入口函数名）。
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC-BY-NC-SA-4.0)

任务类别示例

以下列出部分类别及其任务数量：

类别	任务数量	描述
BasicGates	16	基本量子门
Superposition	21	叠加态制备
Measurements	18	量子测量
DeutschJozsa	15	多伊奇-乔萨算法
GroversAlgorithm	8	格罗弗搜索算法
QFT	16	量子傅里叶变换
PhaseEstimation	7	量子相位估计
其余类别	共19个类别	更多类别（未全部列出）

技术依赖

Python: 3.10+
核心库: qiskit >= 2.0.0, qiskit-aer >= 0.15.0
模型接口: anthropic >= 0.40.0, openai >= 1.0.0, google-generativeai >= 0.8.0

主要用途

该数据集主要用于通过命令行工具 qk-benchmark 对多种 LLM（如 Claude、GPT、Gemini、Llama、Granite、Qwen、DeepSeek、Mistral 等）进行量子计算编程能力的基准测试。支持多种评估策略，包括多次运行、统计置信区间计算以及不同的提示策略（如零样本、少样本、思维链）。

搜集汇总

数据集介绍

构建方式

Quantum Katas Benchmark数据集源自微软QuantumKatas项目，其核心构建方式是将原有的350个量子计算任务从Q#语言系统性地迁移并翻译至Qiskit框架。这些任务横跨26个类别，涵盖基础量子门、叠加态制备、量子测量、Deutsch-Jozsa与Grover算法以及量子傅里叶变换等核心主题，确保了内容在量子计算教育领域的全面性与代表性。

特点

该数据集具有鲜明的结构化特征，每个任务均以统一的JSON格式封装，包含唯一的任务标识符、问题描述、规范解决方案、单元测试函数及入口点名称。这种设计不仅便于自动化评估，还支持细粒度的类别过滤与任务级调试。数据集配备了丰富的模型配置接口，兼容Claude、GPT、Gemini等主流大语言模型，并允许通过环境变量或JSON文件灵活管理API凭据与推理参数。

使用方法

研究者可通过命令行工具或Python API便捷地调用该数据集。命令行支持按模型、类别或任务ID进行定向基准测试，提供多数投票、任意通过和全部通过三种聚合策略以增强统计可靠性，并可利用并行执行和消融实验功能在不同提示策略下系统评估模型性能。结果以JSON格式保存，配合内置的比较与报告生成工具，可快速生成包含置信区间的统计对比表格与Markdown分析文档。

背景与挑战

背景概述

随着量子计算领域的迅猛发展，评估大型语言模型（LLM）在量子计算任务上的能力已成为一项关键研究课题。Quantum Katas Benchmark 数据集于近期由研究团队创建，基于微软的 QuantumKatas 项目，并将其翻译为 Qiskit 框架，旨在系统性地衡量 LLM 对量子计算核心概念与算法的理解与编程能力。该数据集包含 350 个任务，涵盖 26 个类别，如基本门操作、叠加态制备、量子测量、Deutsch-Jozsa 算法、Grover 搜索算法及量子傅里叶变换等。通过构建这样一个结构化且面向实际编程测试的基准，它为研究者提供了评估 LLM 在量子计算领域表现的标准平台，推动了人工智能与量子计算交叉研究的进展。

当前挑战

该数据集面临多重挑战。首先，在领域问题方面，量子计算任务具有高度抽象性与逻辑严谨性，要求 LLM 不仅能理解量子态的数学表示，还需准确生成可执行的量子电路代码，这对模型的符号推理与数值计算能力构成严峻考验。其次，在构建过程中，将原始基于 Q# 语言的 QuantumKatas 任务准确翻译为 Qiskit 语言，需确保语法、语义及测试逻辑的一致性，工作量大且易出错。此外，不同 LLM 在提示策略（如零样本、少样本、思维链）下的表现差异显著，如何设计公平且鲁棒的评估协议以消解模型间的偏差，也是该基准面临的重要挑战。

常用场景

经典使用场景

在量子计算与人工智能交叉的学术前沿，Quantum Katas Benchmark数据集被广泛用于评估大语言模型在量子编程任务上的代码生成能力。该数据集囊括了350道涵盖基础量子门、量子傅里叶变换、Grover搜索算法等26个类别的量子计算习题，并将Microsoft QuantumKatas中的经典任务移植到Qiskit框架之下。研究人员通过向模型输入每道习题的自然语言描述，要求其生成对应的Qiskit量子线路代码，从而系统性地检验模型对量子计算基础概念与算法的理解深度，以及将其转化为可执行代码的精准程度。这一场景为衡量AI在专精领域中的推理与编码水平提供了高质量、标准化的评测基准。

实际应用

在实际应用中，Quantum Katas Benchmark所评测的能力直接服务于量子计算工程化进程中的多个关键环节。高效准确的量子程序自动生成能够帮助量子算法开发人员快速验证思路、生成模板代码，从而缩短从理论推导到量子线路实现之间的周期。该数据集所评测的模型，在半导体公司的量子编译工具链、科研机构的算法设计辅助平台、以及教育领域的量子计算在线课程中均具有重要价值。例如，具备较高量子编程推理能力的AI助手可以为量子硬件上的算法调试提供参考方案，或者在量子化学模拟、组合优化等前沿应用中协助研究者探索更优的线路结构，从而提升整体研发效率。

衍生相关工作

基于Quantum Katas Benchmark的独特评测能力，衍生出了一系列探索大语言模型在量子领域中编程特性的经典工作。研究者利用该数据集进行了系统的消融实验，考察了零样本、少样本、思维链等不同提示策略对量子代码生成正确率的影响，揭示了模型在处理量子门序列逻辑与测量条件分支时的特殊行为模式。此外，通过对比闭源商用模型与开源社区模型在该基准上的成绩，相关工作绘制出了一张涵盖Claude、GPT、Gemini、Llama、Qwen、DeepSeek等主流体系的量子编程能力谱图。一些工作还进一步分析了模型在不同难度任务上的退化规律，为后续针对性地训练量子专用代码模型提供了实验依据与性能参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集