five

Open Quantum Data Commons (OpenQDC)

收藏
arXiv2024-11-29 更新2024-12-04 收录
下载链接:
https://github.com/valence-labs/OpenQDC
下载链接
链接失效反馈
官方服务:
资源简介:
Open Quantum Data Commons (OpenQDC) 是一个综合性的量子数据集库,由Valence Labs、MILA和Montreal University等机构创建。该数据集包含了37个公开的量子力学数据集,涵盖了超过400万个几何结构和250多种量子方法,主要用于机器学习原子间势能(MLIP)的训练。数据集经过精心预处理和标准化,适用于有机化学中的广泛化学元素和相互作用。创建过程中,数据集被分为势能数据集和相互作用能数据集,前者用于MLIP训练,后者用于药物-靶点相互作用(DTI)、药物-药物相互作用(DDI)和蛋白质-蛋白质相互作用(PPI)的评分模型训练。OpenQDC的应用领域主要集中在分子动力学(MD)模拟中,旨在解决量子力学数据集的碎片化和难以访问的问题,从而推动MLIP的发展和应用。

Open Quantum Data Commons (OpenQDC) is a comprehensive quantum dataset repository created by institutions including Valence Labs, MILA, and the University of Montreal. This dataset encompasses 37 publicly available quantum mechanics datasets, covering over 4 million geometric structures and more than 250 quantum methods, and is primarily utilized for training machine learning interatomic potentials (MLIP). The dataset has been meticulously preprocessed and standardized, making it applicable to a wide range of chemical elements and interactions in organic chemistry. During its creation, the dataset was divided into two categories: potential energy datasets and interaction energy datasets. The former is designed for MLIP training, while the latter is employed for training scoring models for drug-target interaction (DTI), drug-drug interaction (DDI), and protein-protein interaction (PPI) tasks. The main application fields of OpenQDC focus on molecular dynamics (MD) simulations, and it aims to address the problems of fragmentation and inaccessibility of quantum mechanics datasets, thereby promoting the development and application of MLIP.
提供机构:
Valence Labs, MILA, Montreal University
创建时间:
2024-11-29
搜集汇总
数据集介绍
main_image_url
构建方式
Open Quantum Data Commons (OpenQDC) 数据集的构建方式体现了对量子力学数据的高度整合与标准化。该数据集汇聚了来自 37 个不同来源的量子力学数据集,涵盖了超过 250 种量子方法和 4 亿个几何结构。这些数据集经过精心预处理和标准化,以适应机器学习原子间势能(MLIP)的训练需求。OpenQDC 不仅涵盖了广泛的有机化学元素和相互作用,还提供了用于数据归一化和整合的工具,这些工具通过 Python 接口便捷地访问。
特点
OpenQDC 数据集的显著特点在于其规模和多样性。它包含了近 40 个数据集,覆盖了 4 亿个几何结构,跨越 70 种原子类型和 250 多种量子方法。这些数据集分为势能数据集和相互作用能数据集,前者用于训练 MLIP,后者用于训练药物-靶标相互作用(DTI)、药物-药物相互作用(DDI)和蛋白质-蛋白质相互作用(PPI)的评分模型。此外,OpenQDC 通过 Python 库提供了一键式数据访问,简化了数据处理和模型训练的流程。
使用方法
使用 OpenQDC 数据集进行研究时,用户可以通过 OpenQDC Python 库轻松访问和处理数据。每个数据集都可以通过一行代码加载,并支持自定义能量和距离单位的转换。该库还提供了数据归一化、几何表示和可视化等工具,帮助用户在 MLIP 训练中进行数据预处理和分析。此外,OpenQDC 还支持数据集的扩展和格式转换,使得用户能够根据研究需求灵活地使用数据。
背景与挑战
背景概述
Open Quantum Data Commons (OpenQDC) 是由 Valence Labs 和 MILA 等机构的研究人员于2024年推出的一个综合性量子数据集,旨在解决分子动力学模拟中机器学习原子间势能(MLIPs)的训练数据分散问题。该数据集整合了来自37个数据集的超过4亿个几何结构,涵盖了广泛的有机化学元素和相互作用。OpenQDC 的推出极大地促进了 MLIPs 的发展,为分子动力学领域的研究提供了丰富的数据资源,推动了药物和材料发现领域的进步。
当前挑战
OpenQDC 面临的挑战主要集中在数据集的构建和应用过程中。首先,量子力学(QM)数据集的获取和处理成本高昂,且化学覆盖范围有限,这限制了 MLIPs 的开发。其次,现有数据集在化学空间的泛化能力有限,导致模型在未见过的化学空间中表现不佳。此外,MLIPs 在计算速度和稳定性上仍不如传统的经验力场。这些挑战表明,需要更多的研究来充分发挥机器学习在量子数据建模中的潜力。
常用场景
经典使用场景
Open Quantum Data Commons (OpenQDC) 数据集在分子动力学模拟中展现了其经典应用场景。该数据集整合了37个量子力学数据集,涵盖超过250种量子方法和4亿个几何结构,为机器学习原子间势能(MLIPs)的训练提供了丰富的资源。通过标准化和预处理,OpenQDC 数据集支持广泛的化学元素和有机化学中的相互作用,适用于训练 MLIPs,以实现精确且快速的能量和力计算。
衍生相关工作
OpenQDC 数据集的推出催生了一系列相关研究工作。例如,基于该数据集的 MLIPs 训练方法被应用于多个知名架构,如 SchNet、TorchMD-Net 和 DimeNet,这些架构在分子动力学模拟中展示了其优越性能。此外,OpenQDC 还激发了对多保真度方法的研究,通过整合不同精度和计算成本的量子方法,进一步提升了 MLIPs 的性能和适用性。
数据集最近研究
最新研究方向
在量子化学领域,Open Quantum Data Commons (OpenQDC) 数据集的最新研究方向主要集中在通过整合和标准化大量量子力学数据,以推动机器学习原子间势能(MLIPs)的发展。OpenQDC 通过收集和预处理来自超过250种量子方法和400亿个几何结构的37个量子力学数据集,为MLIPs的训练提供了前所未有的资源。这些数据集涵盖了广泛的有机化学相关元素和相互作用,极大地促进了MLIPs在分子动力学(MD)模拟中的应用。此外,OpenQDC 还通过提供标准化和易于访问的工具,降低了ML专家进入该领域的门槛,从而加速了MLIPs的开发和应用。
相关研究论文
  • 1
    OpenQDC: Open Quantum Data CommonsValence Labs, MILA, Montreal University · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作