Quantum Mechanics for Proteins (QMProt)
收藏arXiv2025-05-14 更新2025-05-16 收录
下载链接:
https://github.com/LDIG-US/QMProt
下载链接
链接失效反馈官方服务:
资源简介:
QMProt数据集是一个旨在支持蛋白质研究中量子计算应用的数据库,包含精确的量子力学和物理化学数据,使生物分子特征化更加准确,并支持如分子碎片化和重组等高级计算方法。数据集包括45个分子,涵盖了所有20种必需的人类氨基酸及其核心结构元素,主要特征是有机分子,最多有15个非氢原子。QMProt公开可用,旨在提高可重复性,并推动分子生物学、生物化学和药物发现中的量子增强模拟。数据集旨在通过包括重要的计算成本高昂的属性,如基态能量和分子哈密顿算子,来促进相关有机分子的研究,加速和促进生物分子量子模拟的进展。此外,QMProt通过弥合现有数据集(主要针对小分子)与研究较大系统(如肽和蛋白质)的研究人员的需求之间的差距,增强了较大生物分子系统的特征化。通过提供集成了QM衍生属性和ML方法的数据库,QMProt使混合QM/ML方法成为可能,使研究人员能够训练模型,准确有效地预测较大和更复杂系统的属性。QMProt将加速药物发现和生物分子研究,因为蛋白质在许多生物和治疗过程中起着核心作用。它还使碎片化和重组技术的研究成为可能,为键形成提出新的化学校正,确保模拟后分子属性的准确重建,并与我们最新的研究结果相一致。
The QMProt dataset is a database designed to support quantum computing applications in protein research. It contains precise quantum mechanical and physico-chemical data, enabling more accurate characterization of biomolecules and supporting advanced computational methods such as molecular fragmentation and recombination. The dataset includes 45 molecules covering all 20 essential human amino acids and their core structural elements, with the main focus being organic molecules with up to 15 non-hydrogen atoms. QMProt is publicly available, aiming to improve reproducibility and advance quantum-enhanced simulations in molecular biology, biochemistry, and drug discovery. The dataset seeks to promote research on relevant organic molecules by including computationally expensive critical properties such as ground-state energy and molecular Hamiltonian operators, thereby accelerating and facilitating progress in biomolecular quantum simulation. Furthermore, QMProt enhances the characterization of larger biomolecular systems by bridging the gap between existing datasets (mostly focused on small molecules) and the needs of researchers studying larger systems such as peptides and proteins. By providing a database integrating QM-derived properties and machine learning methods, QMProt enables hybrid QM/ML approaches, allowing researchers to train models that accurately and efficiently predict the properties of larger and more complex systems. QMProt will accelerate drug discovery and biomolecular research, as proteins play a central role in many biological and therapeutic processes. It also enables research on fragmentation and recombination techniques, proposing new chemical corrections for bond formation, ensuring accurate reconstruction of post-simulation molecular properties, and aligning with our latest research findings.
提供机构:
Lighthouse Disruptive Innovation Group Europe, SL, Lighthouse Disruptive Innovation Group, LLC, MIT Media Lab - City Science Group
创建时间:
2025-05-14
搜集汇总
数据集介绍

构建方式
QMProt数据集的构建采用了系统化的分子筛选与量子化学计算方法。研究团队基于蛋白质碎片化策略,从20种人体必需氨基酸及其核心结构单元(包括氨基端、羧基端、α碳和侧链)中精选45个代表性分子。通过PubChem数据库获取分子三维坐标,采用STO-3G基组和OpenFermion量子计算框架,结合PySCF软件包进行受限Hartree-Fock计算,精确求解分子哈密顿量和基态能量。所有计算均在配备NVIDIA GPU加速的高性能计算集群上完成,确保了量子力学参数的计算精度与可靠性。
特点
该数据集的核心价值在于其针对蛋白质研究的专业化设计。相较于传统小分子量子数据集,QMProt首次系统覆盖氨基酸及其碎片化单元,包含15个非氢原子以内的有机分子体系。每个分子提供22类属性,涵盖SMILES字符串、PubChem CID标识、自旋态、轨道数等基础特征,以及哈密顿量矩阵、基态能量等需百万级计算资源获得的量子参数。特别值得注意的是,数据集采用分层HDF5格式存储,并兼容Pennylane量子计算平台,其分子哈密顿量经过费米子转换处理,可直接用于变分量子本征求解器(VQE)等算法。
使用方法
研究人员可通过GitHub仓库获取标准化处理脚本,将HDF5文件中的分层数据转换为量子电路可操作的格式。对于哈密顿量模拟,建议采用Pennylane提供的量子神经网络架构,结合参数化量子电路进行分子能量优化。在机器学习应用中,可利用基态能量与分子描述符构建预测模型,或通过迁移学习将小分子量子特性拓展至蛋白质系统研究。数据集特别适用于:1)验证蛋白质碎片化重组算法的准确性;2)训练量子-经典混合模型预测大分子性质;3)作为基准测试集评估量子化学计算新方法。所有数据均附带详细的元数据描述,确保实验可重复性。
背景与挑战
背景概述
Quantum Mechanics for Proteins (QMProt) 数据集由Lighthouse Disruptive Innovation Group Europe, SL于2025年4月推出,旨在填补量子计算在蛋白质研究领域的数据空白。该数据集聚焦于蛋白质及其组成氨基酸的量子力学特性,涵盖了20种人类必需氨基酸及其核心结构片段,共计45个分子。通过提供精确的分子哈密顿量、基态能量及物理化学性质,QMProt为分子生物学、生物化学和药物发现领域的量子增强模拟研究奠定了重要基础。其创新性在于突破了现有量子化学数据集局限于小分子的瓶颈,首次系统性地建立了蛋白质片段化研究的量子力学数据库,对推动量子计算在生物大分子模拟中的应用具有里程碑意义。
当前挑战
QMProt数据集面临的核心挑战体现在两个维度:在科学层面,蛋白质量子模拟需解决高维哈密顿量求解的指数级复杂度问题,现有量子硬件难以直接处理超过15个非氢原子的分子系统;在构建层面,数据集开发需平衡计算精度与可行性,采用STO-3G基组虽降低计算成本,但可能牺牲部分精度。此外,分子片段化策略引入的化学键重组校正、大规模哈密顿量存储(需分割为多个属性)以及异构量子-经典计算环境的协同优化,均为数据集构建过程中的关键技术挑战。这些挑战反映了当前量子计算应用于生物大分子研究的前沿难点。
常用场景
经典使用场景
QMProt数据集在量子计算与蛋白质研究的交叉领域展现了其经典应用价值。该数据集通过提供精确的量子力学和物理化学数据,为研究人员在分子碎片化与重组、蛋白质折叠模拟等复杂计算任务中提供了可靠的基础。特别是在氨基酸及其核心结构单元的量子特性分析中,QMProt的数据支持了高精度的哈密顿量模拟和基态能量计算,成为量子增强分子动力学研究的重要工具。
实际应用
在药物研发领域,QMProt数据集展现出重要的实践价值。研究人员利用其精确的量子化学参数,可优化分子对接算法的准确性,加速先导化合物筛选流程。生物技术企业将该数据集应用于抗体设计,通过量子力学特性预测蛋白质稳定性。此外,在合成生物学中,数据集提供的氨基酸侧链量子参数为理性设计人工酶提供了理论支撑,显著提高了蛋白质工程的成功率。
衍生相关工作
QMProt的发布催生了多项创新性研究。基于该数据集开发的量子-机器学习混合算法在《Nature Computational Science》上报道,实现了蛋白质量子特性的高效预测。MIT研究团队利用其碎片化数据构建了新型蛋白质折叠模型,成果发表于《Science Advances》。此外,欧洲量子计算联盟以此为基础建立了首个蛋白质量子模拟基准测试平台,推动了量子算法在计算生物学中的标准化进程。
以上内容由遇见数据集搜集并总结生成



