HamLib

arXiv2024-02-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2306.13126v3

下载链接

链接失效反馈

官方服务：

资源简介：

HamLib是一个包含从2到1000个量子比特的量子哈密顿量的大型数据集，涵盖了海森堡模型、费米-哈伯德模型、玻色-哈伯德模型、分子电子结构、分子振动结构、MaxCut、Max-$k$-SAT、Max-$k$-Cut、QMaxCut和旅行商问题等多种问题实例。

HamLib is a large-scale dataset containing quantum Hamiltonians ranging from 2 to 1000 qubits, covering a variety of problem instances including the Heisenberg model, Fermi-Hubbard model, Bose-Hubbard model, molecular electronic structure, molecular vibrational structure, MaxCut, Max-$k$-SAT, Max-$k$-Cut, QMaxCut, and the Traveling Salesman Problem.

创建时间：

2023-06-23

搜集汇总

数据集介绍

构建方式

在量子计算领域，拥有大量真实世界问题实例对于基准测试硬件、软件和算法至关重要。HamLib（哈密顿量库）正是为此而生，它是一个基于量子比特的哈密顿量大型数据集，问题规模涵盖2至1000个量子比特。该数据集的构建方式独具匠心：首先，从凝聚态物理、化学和经典优化等多个领域精选问题实例，包括海森堡模型、费米-哈伯德模型、分子电子结构、振动结构、MaxCut、Max-k-SAT、旅行商问题等。随后，所有实例均被映射至量子比特的泡利表示形式，即编码为形如H_encoded = Σ_i c_i ⊗_k {σ_ik}的算子，其中σ_ik为单量子比特泡利或单位算子。最终，这些编码后的哈密顿量采用OpenFermion的QubitOperator类表示，并存储于HDF5格式中，再压缩为ZIP文件，供用户直接下载使用。

特点

HamLib数据集的特点在于其无与伦比的广度与实用性。它提供了问题规模与复杂度的精细分布，从2到1000量子比特，确保研究者能够针对不同规模的量子设备进行充分测试。数据集的核心优势在于所有问题实例均已预先完成到量子比特的映射，省去了研究者繁琐的准备工作。此外，数据集涵盖了丰富的数学特性，包括多样的局域性（泡利权重从2到N）、量子比特连接性以及广泛的哈密顿量范数。尤为重要的是，HamLib注重真实世界问题的呈现，例如采用来自真实城市的距离矩阵构建旅行商问题实例，同时亦包含必要的辅助信息，如近似基态或特定量子算法所需的算子，从而支持从算法对比到硬件表征的多种基准测试需求。

使用方法

使用HamLib数据集的方法直观而高效。用户可直接从在线门户下载压缩的ZIP文件，解压后即可获得HDF5格式的哈密顿量数据。为方便交互，论文提供了详尽的Python代码片段，涵盖加载HDF5文件结构、提取数据及解压至内存等功能。用户可调用如`read_openfermion_hdf5`等函数，将存储的算子直接读取为OpenFermion的QubitOperator对象，进而无缝集成至量子算法仿真或量子硬件实验中。数据集支持多种典型任务，包括特征值求解（如基态搜索）、量子动力学模拟以及编译流程的基准测试。无论是用于变分量子特征求解器（VQE）、量子近似优化算法（QAOA），还是绝热量子计算，HamLib均能提供即插即用的问题实例，极大加速研究进程并促进结果的可重复性。

背景与挑战

背景概述

在量子计算领域，标准化基准测试与可复现性研究长期受限于高质量问题实例的匮乏。尽管经典计算领域已拥有如ImageNet、LINPACK等成熟的基准数据集，量子计算社区却始终缺乏一个覆盖广泛、规模可调的哈密顿量库。为填补这一空白，由Intel Labs、Sandia国家实验室、NASA艾姆斯研究中心、牛津大学等多家顶尖机构的研究人员于2023年联合发布了HamLib（Hamiltonian Library），旨在为量子算法与硬件提供统一的性能评估平台。该数据集的核心研究问题聚焦于如何构建一个涵盖凝聚态物理、量子化学及经典优化问题的哈密顿量集合，并已预先完成从原始问题到量子比特表示的映射。HamLib包含从2到1000量子比特的多种规模问题实例，覆盖海森堡模型、费米-哈伯德模型、分子电子结构、MaxCut、旅行商问题等十类典型问题。该数据集的出现显著提升了量子计算研究的标准化水平，为算法对比、硬件评估及编译优化提供了可复现的基准。

当前挑战

HamLib所面临的挑战首先源于量子计算领域本身的复杂性。一方面，所涵盖的问题类型跨度极大，从凝聚态物理中的强关联电子系统到NP-hard的组合优化问题，不同问题对量子算法的适应性差异显著，如何确保数据集能够公平地反映各类算法的真实性能是一大难题。另一方面，构建过程本身充满技术挑战：将费米子、玻色子及离散变量问题映射到量子比特表示时，需在多种映射方案（如Jordan-Wigner、Bravyi-Kitaev、一元编码等）中做出选择，不同编码对量子比特数、门保真度及电路深度的影响迥异，这要求数据集在提供标准化实例的同时保留足够的灵活性。此外，保持问题实例在量子比特数目上的均匀分布以适配不同规模的量子硬件，以及确保从经典基准库（如SATLib、TSPLib）中衍生出的子图仍保留原始问题的结构特征，均是构建过程中的关键难点。

常用场景

经典使用场景

在量子计算领域，HamLib数据集的核心用途在于为量子算法与硬件的基准测试提供统一且多样化的哈密顿量实例。它涵盖了从凝聚态物理模型（如海森堡模型、费米-哈伯德模型）到化学分子结构（电子与振动结构），再到经典组合优化问题（如最大割、旅行商问题）的广泛范畴。研究者可直接利用这些已映射到量子比特表示的哈密顿量，评估变分量子本征求解器、量子近似优化算法及哈密顿量模拟等方法的性能，从而免去繁琐的实例制备与编码步骤，显著提升研究效率与可复现性。

衍生相关工作

基于HamLib，学术界已衍生出一系列重要工作，推动了量子计算基准测试方法论的进步。例如，研究者利用该数据集设计了针对变分量子算法的标准化测试流程，并开发了用于评估量子编译优化策略的专用基准。此外，数据集中的困难实例（如强关联氢链与过渡金属分子）催生了新型量子子空间方法与误差缓解技术的验证研究，这些工作不仅深化了对量子算法局限性的理解，也为量子-经典混合计算框架的完善提供了实证依据。

数据集最近研究