five

InstaDeepAI/SPICE2-curated

收藏
Hugging Face2025-07-04 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/SPICE2-curated
下载链接
链接失效反馈
官方服务:
资源简介:
SPICE2_curated数据集是基于SPICE第2版的数据集,包含了大约200万个在ωB97M-D3(BJ)/def2-TZVPPD理论级别下计算的结构。数据集被划分为训练集和验证集,比例为95:5。在过滤过程中,移除了不合理的结构、带电系统和力值过大的结构。训练集包含1,737,896个结构,验证集包含87,922个结构。

The SPICE2_curated dataset is based on the version 2 of the SPICE dataset, comprising approximately 2 million structures computed at the ωB97M-D3(BJ)/def2-TZVPPD level of theory. The dataset is split into a training set and a validation set with a 95/5 ratio. During the filtering process, structures with unphysical conditions, charged systems, and high forces were removed. The training set contains 1,737,896 structures, and the validation set contains 87,922 structures.
提供机构:
InstaDeepAI
搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学领域,高质量的数据集对于开发精确的分子模拟模型至关重要。SPICE2-curated数据集源自SPICE版本2数据集,该原始集合包含了约200万个在ωB97M-D3(BJ)/def2-TZVPPD理论水平下计算的结构,以其在化学和构象空间中的多样性而著称。构建过程中,通过严格的过滤流程对原始数据进行了精炼:移除了不合理的结构,例如氢原子键合数异常的情况;剔除了所有带电体系;应用了总力和最大力阈值以排除高力结构;并基于训练模型的能量误差z-score去除了异常高误差的样本。此外,为确保验证集的纯净性,所有含锂、钾或钠原子的结构也被移除,最终形成了包含1,734,158个训练结构和87,764个验证结构的数据集,并按分子SMILES进行了95/5的划分,避免了同一分子的不同构象在训练和验证集中同时出现。
特点
该数据集的核心特点在于其经过精心策划的高质量与代表性。它覆盖了广泛的化学空间,包含了多样化的分子构象,为机器学习模型提供了丰富的学习素材。数据集的划分策略科学严谨,通过基于分子SMILES的分割,确保了训练集和验证集之间的独立性,有效防止了数据泄漏,从而提升了模型评估的可靠性。过滤过程进一步增强了数据的物理合理性与一致性,移除了不稳定的高能结构、带电体系以及特定元素,使得数据集更专注于中性有机分子的稳定状态,为开发稳健的分子力场或能量预测模型奠定了坚实基础。
使用方法
在机器学习驱动的分子建模研究中,该数据集可直接用于训练和验证各类预测模型,如分子能量、力或性质的回归任务。研究人员可加载训练集部分,利用其结构信息和对应的量子化学计算标签(如能量、力)来训练神经网络势函数或其他预测器。验证集则用于在训练过程中监控模型性能,进行超参数调优或早期停止,以评估模型的泛化能力。由于数据集已预先清洗并分割,用户无需进行额外的预处理,即可专注于模型架构的设计与实验。该数据集尤其适用于评估模型在未见分子构象上的预测准确性,推动计算化学方法的发展。
背景与挑战
背景概述
在计算化学领域,高精度分子模拟对于药物发现和材料设计至关重要。InstaDeepAI/SPICE2-curated数据集源于2024年发布的SPICE2数据集,由InstaDeep研究团队基于ωB97M-D3(BJ)/def2-TZVPPD理论方法构建,包含约200万分子构象。该数据集旨在解决量子化学计算中精度与效率的平衡问题,通过筛选非物理结构、带电体系及高能量误差样本,为机器学习力场开发提供高质量基准,显著推动了分子动力学模拟的可扩展性与可靠性研究。
当前挑战
该数据集核心挑战在于解决分子能量与力预测中的多尺度复杂性,需准确捕捉化学空间多样性及构象动态变化。构建过程中面临多重筛选难题:需剔除氢键异常的非物理结构,排除带电体系以避免电子态干扰,过滤高力值样本确保动力学稳定性,并移除锂、钾、钠等元素以保持验证集一致性。这些步骤要求精密平衡数据规模与质量,同时避免过度过滤导致的化学空间代表性缺失。
常用场景
经典使用场景
在计算化学领域,SPICE2-curated数据集以其高精度的量子化学计算数据,为机器学习势能函数(MLIPs)的开发提供了关键支撑。该数据集通过ωB97M-D3(BJ)/def2-TZVPPD理论水平计算了约200万种结构,覆盖广泛的化学和构象空间,确保了数据的多样性与可靠性。研究者常利用其训练集与验证集的严格分割,评估模型在预测分子能量和力场方面的泛化能力,从而推动分子动力学模拟的精度提升。
实际应用
在实际应用中,SPICE2-curated数据集被广泛用于药物发现与材料设计等工业场景。基于该数据集训练的机器学习势能函数,能够高效模拟复杂分子系统的动力学行为,加速候选化合物的筛选过程。例如,在制药行业,它助力研究人员预测蛋白质-配体相互作用,优化药物分子的结合亲和力,从而缩短研发周期并降低实验成本,体现了数据驱动方法在解决现实化学问题中的强大潜力。
衍生相关工作
围绕SPICE2-curated数据集,已衍生出一系列经典研究工作,特别是在机器学习势能函数模型的开发与优化方面。例如,基于该数据集的训练,研究者提出了多种图神经网络架构,用于精确预测分子能量与原子力。这些工作不仅推动了MLIPs在开源工具包中的集成,还为后续大规模分子模拟数据集(如QM9、MD17)的构建提供了方法论借鉴,促进了计算化学与人工智能领域的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作