QCoder Benchmark

Name: QCoder Benchmark
Creator: 日本国立先进工业科学技术研究所 (AIST)
Published: 2025-11-01 11:02:22
License: 暂无描述

arXiv2025-11-01 更新2025-11-01 收录

下载链接：

https://qcoder-bench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

QCoder Benchmark数据集是一个评估大型语言模型在量子编程方面的基准数据集。该数据集包含来自真实编程竞赛的编程问题和人类编写的解决方案，以及一个基于量子模拟器的评估工具，用于提供硬件特定的反馈。数据集包含58个编程问题和大约1740个问题-解决方案对。每个解决方案都是使用Qiskit库编写的，并且包含了修订历史，反映了人类程序员的迭代开发过程。QCoder Benchmark旨在评估生成代码的功能正确性以及是否符合硬件约束，如电路深度和量子门的可用性。

提供机构：

日本国立先进工业科学技术研究所 (AIST)

创建时间：

2025-10-30

原始信息汇总

QCoder Benchmark 数据集概述

数据集名称

QCoder Benchmark

核心目标

评估大型语言模型在量子编程任务中的表现，通过模拟硬件设备提供反馈

关键特性

支持量子模拟器环境评估，超越传统Python执行
提供领域特定指标反馈：电路深度、执行时间、错误分类
包含从真实编程竞赛收集的人工编写代码提交
支持LLM输出与人工编写代码的定量比较和定性分析

实验结果

先进模型GPT-4o准确率：约18.97%
基于推理的模型准确率：最高达78%
人工编写代码平均成功率：39.98%

数据来源

从真实量子编程竞赛中收集的人工编写代码提交

可用资源

QCoder Benchmark数据集
公共评估API

应用领域

量子编程、语言生成、硬件交互编程、代码生成评估

研究背景

解决需要与硬件设备交互的编程领域（如量子编程）中LLM评估不足的问题

搜集汇总

数据集介绍

构建方式

在量子计算领域，构建高质量数据集需要兼顾理论严谨性与实践可行性。QCoder Benchmark通过收集真实量子编程竞赛中的问题与解决方案构建而成，数据来源于QCoder量子编程教育平台的公开竞赛。该数据集包含58个量子编程问题，每个问题平均配备30份人类提交的代码解决方案，总计形成1,740组问题-解决方案对。特别值得注意的是，每个提交方案还保留了平均20个中间修订版本，完整记录了人类程序员在量子电路设计过程中的迭代优化轨迹。

使用方法

使用QCoder Benchmark进行量子代码生成评估时，研究者可通过其提供的Web API接口提交生成的量子程序。评估流程遵循严格的层级验证机制：首先检测Python运行时错误，随后检查量子门使用合规性，接着验证电路深度约束，最后通过量子模拟器比对输出状态向量与参考状态的匹配度。评估结果以结构化JSON格式返回，包含运行时错误标志、门约束违反情况、深度约束违反状态和状态匹配结果等关键指标。这种系统化的评估框架支持反馈驱动的迭代生成范式，允许模型根据硬件反馈不断优化代码实现。

背景与挑战

背景概述

量子计算作为新兴计算范式，其编程范式与传统软件工程存在显著差异。2025年由日本产业技术综合研究所领衔的研究团队推出QCoder Benchmark，旨在构建连接语言生成与量子硬件的评估框架。该数据集聚焦量子编程代码生成任务，通过收集真实编程竞赛中的人类提交代码与量子模拟器反馈机制，填补了现有基准在硬件约束代码生成领域的空白。其核心研究问题在于探索大语言模型如何生成符合量子硬件特定约束的可执行代码，为量子软件自动化开发提供重要研究基础。

当前挑战

该数据集主要应对量子编程领域两大挑战：在领域问题层面，需解决量子电路生成中硬件约束的复杂性，包括电路深度限制、量子门集兼容性及量子态保真度验证等核心难题；在构建过程中，面临多维度数据整合的挑战，包括人类代码提交的异构性处理、量子模拟器与经典编程环境的协同验证，以及迭代开发过程中版本轨迹的标准化记录。这些挑战共同推动了面向现实约束的代码生成研究范式的革新。

常用场景

经典使用场景

在量子计算编程领域，QCoder Benchmark作为评估框架，主要用于测试大型语言模型生成符合量子硬件约束的Python代码能力。该数据集通过量子模拟器环境提供电路深度、执行时间和错误分类等反馈指标，支持对生成代码的精细评估。其典型应用场景包括量子编程教育平台中的自动代码评分、编程竞赛解决方案的自动化验证，以及研究量子算法实现过程中代码优化的有效性。

解决学术问题

该数据集有效解决了量子编程中代码生成与硬件约束脱节的核心学术问题。传统代码生成基准仅关注语法正确性，而QCoder通过模拟器反馈机制，将评估维度扩展至量子门支持性、电路深度合规性等硬件级约束。这一创新使得研究者能够量化分析模型在复杂领域约束下的代码生成能力，为跨模态编程语言生成理论提供了实证基础，推动了约束驱动代码生成范式的建立。

实际应用

在实际应用层面，QCoder Benchmark已被集成至量子编程教育平台，用于实时评估学习者提交的量子电路代码。其模拟器反馈机制可自动识别未授权量子门使用、电路深度超标等常见错误，显著降低了量子编程入门门槛。此外，该框架在量子软件开发流程中充当验证工具，确保生成代码能直接部署于真实量子计算机，为量子软件工程的质量保障提供了关键技术支撑。

数据集最近研究