HSG-12M
收藏arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://github.com/sarinstein-yan/Poly2Graph
下载链接
链接失效反馈官方服务:
资源简介:
HSG-12M 是一个大规模的基于非厄米量子物理的空间多重图数据集,包含 11.6 百万个静态和 510 万个动态汉密尔顿谱图,来自 177 TB 的谱势数据。每个图都编码了一维晶体在复平面上的完整几何能量谱,产生了多样化的、基于物理的拓扑结构,超越了传统的节点坐标数据集。该数据集旨在解决当前图表示学习中存在的局限性,即几乎所有的公共基准都将数据视为简单的图,允许任何节点对之间最多只有一个边。HSG-12M 数据集的发布为几何感知图学习和凝聚态物理及其以外的数据驱动科学发现提供了新的机会。
HSG-12M is a large-scale spatial multi-graph dataset based on non-Hermitian quantum physics, comprising 11.6 million static and 5.1 million dynamic Hamiltonian spectral graphs derived from 177 TB of spectral potential data. Each graph encodes the complete geometric energy spectrum of one-dimensional crystals on the complex plane, yielding diverse, physics-based topological structures that transcend traditional node-coordinate-based datasets. This dataset aims to address the limitations prevailing in current graph representation learning, where nearly all public benchmarks treat data as simple graphs, allowing at most one edge between any pair of nodes. The release of the HSG-12M dataset provides new opportunities for geometry-aware graph learning, condensed matter physics, and data-driven scientific discovery beyond these research areas.
提供机构:
新加坡国立大学
创建时间:
2025-06-10
原始信息汇总
Poly2Graph 数据集概述
数据集简介
Poly2Graph 是一个用于自动构建哈密顿谱图的Python工具包。它接收特征多项式并返回对应的谱图,主要应用于一维晶体能谱的拓扑结构研究。
主要功能
-
高性能计算
- 快速从一维模型构建谱图
- 自适应分辨率降低浮点运算成本和内存使用
- 支持
tensorflow/torch后端加速计算
-
通用拓扑晶格支持
- 支持单带和多带模型
- 灵活输入格式:特征多项式或Bloch哈密顿量(字符串、
sympy.Poly、sympy.Matrix)
-
自动化与鲁棒性
- 默认无需超参数
- 自动推断谱边界
- 对多带模型的"分量碎片化"问题具有较强鲁棒性
-
辅助功能
skeleton2graph模块:将骨架图像转换为图表示hamiltonian模块:不同哈密顿表示间的转换及性质计算
核心组件
p2g.SpectralGraph:研究特定特征多项式/Bloch哈密顿量的谱图拓扑p2g.CharPolyClass:研究参数化特征多项式类,支持并行生成谱属性
典型应用示例
单带模型
python sg = p2g.SpectralGraph("-z**-2 - E - z + z**4", k=k, z=z, E=E)
- 自动计算特性:
- 特征多项式
- Bloch哈密顿量
- Frobenius伴随矩阵
- 能带数和跳跃范围
- 实空间哈密顿量及能谱
多带模型
python sg_multi = p2g.SpectralGraph("z2 + 1/z2 + E*z - E**4", k, z, E)
- 支持4带模型分析
- 生成谱图包含节点/边属性:
- 位置(
pos) - 态密度(
dos) - 谱势(
potential) - 边权重(
weight)等
- 位置(
可视化输出
- 谱函数图像:
- 谱势图
- 态密度图
- 图骨架二值化图像
- 谱图网络可视化:
- 使用
networkx绘制节点和边
- 使用
安装方式
bash pip install poly2graph
或 bash git clone https://github.com/sarinstein-yan/poly2graph.git cd poly2graph pip install .
系统要求
- Python >= 3.11
- 可选加速支持:TensorFlow/PyTorch
搜集汇总
数据集介绍

构建方式
HSG-12M数据集的构建基于非厄米量子物理中的哈密顿谱图理论,通过Poly2Graph自动化流程从一维晶体哈密顿量中提取空间多重图。该流程结合了非布洛赫能带理论、代数几何和形态学图像处理技术,将177TB的谱势数据高效转化为256GB的图结构表示。具体步骤包括:从哈密顿量生成特征多项式,计算复能量平面上的谱势和态密度,通过自适应分辨率策略提取骨架图,最终转化为包含完整几何信息的网络X多重图对象。
特点
HSG-12M作为首个大规模空间多重图数据集,包含1160万静态图和510万动态图,涵盖1401个特征多项式类别。其核心特点在于保留节点间多条几何异构边的完整空间信息,突破了传统简单图的单边限制。数据源自凝聚态物理中的能带结构,每个图对应特定物理模型的复能谱几何,具有非平凡边几何构型和高边多样性。数据集同时提供静态和动态版本,动态图捕捉哈密顿参数连续变化下的谱图演化过程。
使用方法
数据集以NetworkX多重图格式发布,节点包含复坐标、谱势和态密度属性,边存储几何路径序列及统计特征。为兼容不同研究需求,提供六种子集划分方案:按能带数分级的平衡子集(HSG-one/two/three-band)、完整数据集(HSG-12M)、拓扑非重复子集(HSG-topology)和动态图集(T-HSG-5M)。用户可通过PyTorch Geometric转换脚本获得标准化输入,或直接处理原始数据开发新型几何感知图神经网络。基准测试表明,现有GNN在边几何和多边消息传递方面仍有显著改进空间。
背景与挑战
背景概述
HSG-12M是由新加坡国立大学的研究团队于2025年推出的首个大规模空间多重图数据集,专注于非厄米量子物理领域。该数据集包含1160万静态和510万动态哈密顿谱图,涵盖1401个特征多项式类别,源自177TB的谱势数据。HSG-12M通过保留节点间的几何路径信息,突破了传统简单图数据集的限制,为图表示学习提供了全新的基准。其核心研究问题在于如何有效建模和利用空间多重图中丰富的几何信息,推动了图神经网络在几何感知和多边消息传递方面的研究。该数据集不仅在凝聚态物理领域具有重要价值,还为多项式、向量和矩阵等代数对象与图结构之间建立了普适性联系。
当前挑战
HSG-12M面临的挑战主要体现在两个方面:领域问题方面,传统图神经网络难以有效处理空间多重图中复杂的多边几何关系,特别是在保持边缘多样性和几何形状的同时进行消息传递;构建过程方面,从海量谱势数据中提取精确的谱图面临计算瓶颈,包括高维多项式求根的数值稳定性问题、低密度态区域导致的组件碎片化现象,以及超大规模数据处理的效率挑战。此外,数据集中的类别不平衡问题(最大类别比达660:1)也为机器学习模型带来了额外的挑战。这些挑战推动了新型几何感知图学习算法和高性能计算管道的发展需求。
常用场景
经典使用场景
HSG-12M数据集作为首个大规模空间多重图数据集,在非厄米量子物理与图表示学习的交叉领域具有开创性应用。其经典使用场景包括:1) 作为几何感知图神经网络的基准测试平台,评估模型在保留边缘多重性和连续几何特征时的表现;2) 用于研究一维晶体哈密顿量的能谱拓扑结构,通过谱图的多重边缘几何揭示传统方法无法捕捉的量子态动力学特征;3) 为动态空间图学习提供时序演化数据,支持对能谱图连续形变过程的建模与分析。
衍生相关工作
该数据集已衍生出三类经典工作:1) 算法层面催生了多边缘消息传递机制(如Landon Butler等人的多重图卷积网络)和基于静电类比的新型谱图生成方法;2) 理论层面推动了非布洛赫能带理论与图拓扑的融合研究(如Yuncheng Xiong的谱图形态学工作);3) 应用层面启发了基于谱图指纹的矩阵分解技术(参见Ke Ye的Toeplitz矩阵分解理论扩展)。其开源的Poly2Graph工具更成为代数对象图表示研究的事实标准。
数据集最近研究
最新研究方向
HSG-12M作为首个大规模空间多重图数据集,在非厄米量子物理与图表示学习的交叉领域开辟了新的研究方向。该数据集通过保留一维晶体能谱在复平面上的完整几何信息,为几何感知图学习算法提供了基准平台。其前沿应用集中在三个维度:一是开发支持多边几何的消息传递机制,解决传统图神经网络在边多重性和连续几何特征处理上的局限性;二是探索谱图作为多项式、向量和矩阵的通用拓扑指纹,建立代数对象与图结构的新映射关系;三是在凝聚态物理中加速奇异量子相的发现,通过数据驱动方法逆向设计具有特定量子特性的材料。该数据集通过Poly2Graph开源工具实现从哈密顿量到谱图的自动化转换,为复杂物理系统的图表示学习建立了标准化研究框架。
相关研究论文
- 1HSG-12M: A Large-Scale Spatial Multigraph Dataset新加坡国立大学 · 2025年
以上内容由遇见数据集搜集并总结生成



