InstaDeepAI/SPICE2-curated

Name: InstaDeepAI/SPICE2-curated
Creator: InstaDeepAI
Published: 2025-07-04 16:45:10
License: 暂无描述

Hugging Face2025-07-04 更新2025-05-31 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/SPICE2-curated

下载链接

链接失效反馈

官方服务：

资源简介：

SPICE2_curated数据集是基于SPICE第2版的数据集，包含了大约200万个在ωB97M-D3(BJ)/def2-TZVPPD理论级别下计算的结构。数据集被划分为训练集和验证集，比例为95:5。在过滤过程中，移除了不合理的结构、带电系统和力值过大的结构。训练集包含1,737,896个结构，验证集包含87,922个结构。

The SPICE2_curated dataset is based on the version 2 of the SPICE dataset, comprising approximately 2 million structures computed at the ωB97M-D3(BJ)/def2-TZVPPD level of theory. The dataset is split into a training set and a validation set with a 95/5 ratio. During the filtering process, structures with unphysical conditions, charged systems, and high forces were removed. The training set contains 1,737,896 structures, and the validation set contains 87,922 structures.

提供机构：

InstaDeepAI

搜集汇总

数据集介绍

构建方式

在计算化学领域，高质量的数据集对于开发精确的分子模拟模型至关重要。SPICE2-curated数据集源自SPICE版本2数据集，该原始集合包含了约200万个在ωB97M-D3(BJ)/def2-TZVPPD理论水平下计算的结构，以其在化学和构象空间中的多样性而著称。构建过程中，通过严格的过滤流程对原始数据进行了精炼：移除了不合理的结构，例如氢原子键合数异常的情况；剔除了所有带电体系；应用了总力和最大力阈值以排除高力结构；并基于训练模型的能量误差z-score去除了异常高误差的样本。此外，为确保验证集的纯净性，所有含锂、钾或钠原子的结构也被移除，最终形成了包含1,734,158个训练结构和87,764个验证结构的数据集，并按分子SMILES进行了95/5的划分，避免了同一分子的不同构象在训练和验证集中同时出现。

特点

该数据集的核心特点在于其经过精心策划的高质量与代表性。它覆盖了广泛的化学空间，包含了多样化的分子构象，为机器学习模型提供了丰富的学习素材。数据集的划分策略科学严谨，通过基于分子SMILES的分割，确保了训练集和验证集之间的独立性，有效防止了数据泄漏，从而提升了模型评估的可靠性。过滤过程进一步增强了数据的物理合理性与一致性，移除了不稳定的高能结构、带电体系以及特定元素，使得数据集更专注于中性有机分子的稳定状态，为开发稳健的分子力场或能量预测模型奠定了坚实基础。

使用方法

在机器学习驱动的分子建模研究中，该数据集可直接用于训练和验证各类预测模型，如分子能量、力或性质的回归任务。研究人员可加载训练集部分，利用其结构信息和对应的量子化学计算标签（如能量、力）来训练神经网络势函数或其他预测器。验证集则用于在训练过程中监控模型性能，进行超参数调优或早期停止，以评估模型的泛化能力。由于数据集已预先清洗并分割，用户无需进行额外的预处理，即可专注于模型架构的设计与实验。该数据集尤其适用于评估模型在未见分子构象上的预测准确性，推动计算化学方法的发展。

背景与挑战

背景概述

在计算化学领域，高精度分子模拟对于药物发现和材料设计至关重要。InstaDeepAI/SPICE2-curated数据集源于2024年发布的SPICE2数据集，由InstaDeep研究团队基于ωB97M-D3(BJ)/def2-TZVPPD理论方法构建，包含约200万分子构象。该数据集旨在解决量子化学计算中精度与效率的平衡问题，通过筛选非物理结构、带电体系及高能量误差样本，为机器学习力场开发提供高质量基准，显著推动了分子动力学模拟的可扩展性与可靠性研究。

当前挑战

该数据集核心挑战在于解决分子能量与力预测中的多尺度复杂性，需准确捕捉化学空间多样性及构象动态变化。构建过程中面临多重筛选难题：需剔除氢键异常的非物理结构，排除带电体系以避免电子态干扰，过滤高力值样本确保动力学稳定性，并移除锂、钾、钠等元素以保持验证集一致性。这些步骤要求精密平衡数据规模与质量，同时避免过度过滤导致的化学空间代表性缺失。

常用场景

经典使用场景

在计算化学领域，SPICE2-curated数据集以其高精度的量子化学计算数据，为机器学习势能函数（MLIPs）的开发提供了关键支撑。该数据集通过ωB97M-D3(BJ)/def2-TZVPPD理论水平计算了约200万种结构，覆盖广泛的化学和构象空间，确保了数据的多样性与可靠性。研究者常利用其训练集与验证集的严格分割，评估模型在预测分子能量和力场方面的泛化能力，从而推动分子动力学模拟的精度提升。

实际应用

在实际应用中，SPICE2-curated数据集被广泛用于药物发现与材料设计等工业场景。基于该数据集训练的机器学习势能函数，能够高效模拟复杂分子系统的动力学行为，加速候选化合物的筛选过程。例如，在制药行业，它助力研究人员预测蛋白质-配体相互作用，优化药物分子的结合亲和力，从而缩短研发周期并降低实验成本，体现了数据驱动方法在解决现实化学问题中的强大潜力。

衍生相关工作

围绕SPICE2-curated数据集，已衍生出一系列经典研究工作，特别是在机器学习势能函数模型的开发与优化方面。例如，基于该数据集的训练，研究者提出了多种图神经网络架构，用于精确预测分子能量与原子力。这些工作不仅推动了MLIPs在开源工具包中的集成，还为后续大规模分子模拟数据集（如QM9、MD17）的构建提供了方法论借鉴，促进了计算化学与人工智能领域的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集