SPICE

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/openmm/spice-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SPICE（小分子/蛋白质相互作用化学能）是一个用于训练势函数的量子力学数据集合。特别强调模拟药物样小分子与蛋白质的相互作用。其设计目标包括覆盖广泛的化学空间，包括17种元素和广泛的化学基团；覆盖广泛的构象，包括低能量和高能量构象；包含力以及能量，增加数据集的信息量；包含多种其他信息，如键序、部分电荷和原子多极；使用精确的理论水平进行计算；是一个动态增长的数据集，随着新数据的生成而增长；数据集自由可用，遵循CC0许可。

SPICE (Small Molecule/Protein Interaction Chemical Energies) is a quantum mechanics dataset designed for training potential functions, with a particular emphasis on simulating the interactions between drug-like small molecules and proteins. Its design objectives encompass a broad chemical space, including 17 elements and a wide range of chemical groups; a comprehensive coverage of conformations, from low-energy to high-energy states; the inclusion of forces and energies to enhance the dataset's informational content; the incorporation of various other data types, such as bond orders, partial charges, and atomic multipoles; calculations performed at a high level of theoretical accuracy; and its status as a dynamically growing dataset that expands with the addition of new data. The dataset is freely available under the CC0 license.

创建时间：

2021-09-01

原始信息汇总

SPICE数据集概述

数据集目标

覆盖广泛的化学空间：包含17种元素（H, Li, B, C, N, O, F, Na, Mg, Si, P, S, Cl, K, Ca, Br, I）和多种化学基团，涵盖带电、极性和中性分子，以及共价和非共价相互作用。
覆盖广泛的构象：包括低能和高能构象，设计用于采样典型模拟中可能遇到的所有配置空间区域。
包含力场以及能量：与仅包含能量的数据集不同，SPICE包含力场信息，大幅增加数据集的信息量。
包含多种其他信息：如键序、部分电荷和原子多极等量子力学结果。
使用精确的理论水平：计算采用ωB97M-D3BJ/def2-TZVPPD理论水平。
动态增长的数据集：随着新数据的生成，数据集将不断增长，以提高模型的准确性和覆盖的化学空间范围。
自由且非限制性许可：数据集使用CC0许可，所有数据可自由使用。

数据集组成

SPICE由多个子集组成，每个子集提供特定类型的信息，包括：

Dipeptides：提供蛋白质中发现的共价相互作用的全面采样。
Solvated amino acids：提供蛋白质-水和水-水相互作用的采样。
PubChem molecules：采样广泛的药物样小分子。
Solvated PubChem molecules：提供配体-水相互作用的采样。
DES370K Monomer and dimer structures：提供各种非共价相互作用的采样。
Amino acid, ligand pairs：提供非键合蛋白质-配体相互作用的采样。
Ion pairs：进一步采样不同距离的库仑相互作用。
Water clusters：提供水-水相互作用的额外采样。

子集详细信息

子集	分子/簇数量	构象数量	原子数范围	元素列表
Dipeptides	677	33,850	26–60	H, C, N, O, S
Solvated Amino Acids	26	1,300	79–96	H, C, N, O, S
DES370K Dimers	3,490	345,676	2–34	H, Li, C, N, O, F, Na, Mg, P, S, Cl, K, Ca, Br, I
DES370K Monomers	374	18,700	3–22	H, C, N, O, F, P, S, Cl, Br, I
PubChem	28,039	1,398,566	3–50	H, B, C, N, O, F, Si, P, S, Cl, Br, I
Solvated PubChem	1,397	13,934	63–110	H, C, N, O, F, P, S, Cl, Br, I
Amino Acid Ligand Pairs	79,967	194,174	24–72	H, C, N, O, F, P, S, Cl, Br, I
Ion Pairs	28	1,426	2	Li, F, Na, Cl, K, Br, I
Water Clusters	1	1,000	90	H, O
总计	113,999	2,008,628	2–110	H, Li, B, C, N, O, F, Na, Mg, Si, P, S, Cl, K, Ca, Br, I

数据集引用

使用SPICE数据集的研究应引用以下文献： Peter Eastman, Pavan Kumar Behara, David L. Dotson, Raimondas Galvelis, John E. Herr, Josh T. Horton, Yuezhi Mao, John D. Chodera, Benjamin P. Pritchard, Yuanqing Wang, Gianni De Fabritiis, and Thomas E. Markland. "SPICE, A Dataset of Drug-like Molecules and Peptides for Training Machine Learning Potentials." Scientific Data 10, 11 (2023). https://doi.org/10.1038/s41597-022-01882-6

搜集汇总

数据集介绍

构建方式

SPICE数据集的构建基于量子力学计算，旨在为机器学习势能函数的训练提供丰富的化学数据。该数据集涵盖了多种化学空间，包括17种元素和广泛的化学基团，确保了对不同化学环境的全面采样。此外，SPICE不仅包含能量数据，还包含了力、键级、部分电荷和原子多极矩等多种量子力学结果，以增加数据集的信息量。计算采用ωB97M-D3BJ/def2-TZVPPD理论水平，确保数据的准确性。数据集的构建还考虑了动态增长，随着新数据的生成，数据集将不断扩展，以提升模型的精度和覆盖范围。

特点

SPICE数据集的显著特点在于其广泛的化学空间覆盖和多样化的数据类型。数据集不仅包含低能和高能构象，还涵盖了共价和非共价相互作用，确保了配置空间的全方位采样。此外，SPICE包含了力数据，这在许多其他数据集中是缺失的，极大地提升了数据集的信息价值。数据集还提供了多种量子力学结果，如键级和部分电荷，遵循了‘易于计算且潜在有用’的原则。最后，SPICE的动态增长特性使其能够随着时间的推移不断改进和扩展。

使用方法

SPICE数据集适用于训练机器学习势能函数，特别是在模拟药物样小分子与蛋白质相互作用方面。用户可以通过访问Zenodo平台下载数据集，并使用Psi4软件进行新数据的生成，确保与现有数据集的兼容性。数据集的多样性和高信息量使其适用于多种化学和生物物理模拟任务。为了确保计算结果的一致性，用户应使用与SPICE相同的理论水平和计算设置。此外，数据集的动态特性允许用户在未来的版本中获取更新的数据，以持续优化其模型。

背景与挑战

背景概述

SPICE（Small-Molecule/Protein Interaction Chemical Energies）数据集是由Peter Eastman等人于2023年创建，旨在为机器学习势能函数的训练提供量子力学数据。该数据集特别关注药物样小分子与蛋白质的相互作用，涵盖了广泛的化学空间和构象，包括17种元素和多种化学基团。SPICE不仅包含能量数据，还提供了力、键序、部分电荷和原子多极矩等多种量子力学结果，确保了数据的高信息量和多样性。该数据集的构建基于ωB97M-D3BJ/def2-TZVPPD理论水平，旨在为化学模拟提供高精度的训练数据，并计划通过定期更新扩展其覆盖范围。SPICE的发布为药物设计、蛋白质模拟等领域的研究提供了重要的数据支持。

当前挑战

SPICE数据集在构建过程中面临多项挑战。首先，涵盖广泛的化学空间和构象需要对大量分子进行量子力学计算，这不仅计算量大，且对计算精度要求极高。其次，数据集不仅包含能量，还包含力等复杂信息，这增加了数据处理的复杂性和计算成本。此外，确保不同计算程序和设置下生成的数据一致性也是一个重要挑战，以保证数据的可比性和可扩展性。最后，随着数据集的不断扩展，如何保持数据质量并确保新旧数据的一致性，也是一项长期的技术挑战。

常用场景

经典使用场景

SPICE数据集在机器学习势能函数的训练中展现了其经典应用场景。该数据集特别聚焦于药物类小分子与蛋白质相互作用的模拟，涵盖了广泛的化学空间和构象，包括低能和高能构象。通过提供能量和力的数据，SPICE为训练模型提供了丰富的信息，使其能够更准确地预测分子间的相互作用，尤其是在药物设计和蛋白质工程领域。

解决学术问题

SPICE数据集解决了在分子动力学模拟中常见的几个学术问题。首先，它通过提供广泛的化学空间和构象数据，解决了模型在不同化学环境下的泛化能力问题。其次，通过包含力和能量数据，SPICE解决了传统数据集中仅依赖能量信息而忽略力信息的不足，从而提高了模型的预测精度。此外，SPICE的动态增长特性确保了模型能够随着新数据的加入而不断改进，解决了数据集更新和模型适应性问题。

衍生相关工作

SPICE数据集的发布催生了一系列相关的经典工作。许多研究团队利用SPICE数据集训练和验证新的机器学习模型，特别是在分子动力学和量子化学领域。例如，一些研究通过SPICE数据集改进了分子间相互作用的预测模型，而另一些则开发了新的算法来更有效地利用数据集中的多维信息。此外，SPICE还激发了对数据集扩展和优化的研究，推动了数据驱动科学的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集