five

NENCI-2021

收藏
arXiv2021-02-04 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2102.02354v1
下载链接
链接失效反馈
官方服务:
资源简介:
NENCI-2021是一个包含约8000个非平衡非共价相互作用能的基准数据库,涵盖了生物和化学相关的大量多样性分子复合体。该数据库通过包括40个阳离子和阴离子-π复合体,以及系统地采样所有141个分子间势能面,强调了近接触,为化学科学中对大规模高质量量子力学数据的需求提供了支持。

NENCI-2021 is a benchmark database containing approximately 8,000 non-equilibrium non-covalent interaction energies, covering a wide range of diverse molecular complexes relevant to biology and chemistry. This database emphasizes close intermolecular contacts by incorporating 40 cation and anion-π complexes, as well as systematically sampling all 141 intermolecular potential energy surfaces, thereby supporting the demand for large-scale, high-quality quantum mechanical data in the chemical sciences.
创建时间:
2021-02-04
搜集汇总
数据集介绍
main_image_url
构建方式
在非共价相互作用研究领域,构建高质量基准数据集对理论方法的发展至关重要。NENCI-2021数据集的构建以S66和S101数据库中的101个分子二聚体为基础,通过引入40个阳离子-π和阴离子-π复合物,将体系扩展至141个二聚体。为系统采样非平衡构型,该数据集针对每个二聚体的分子间势能面,沿特征相互作用向量采样七个距离尺度(0.7倍至1.1倍平衡距离),并在每个距离点采样九个分子间角度(离子-π体系因对称性采样五个角度),最终生成7,763个精确的CCSD(T)/CBS水平相互作用能数据点,特别强调了近距离分子接触的覆盖。
使用方法
该数据集为下一代分子模拟方法的测试、训练与发展提供了重要资源。使用者可直接获取包含7,763个分子复合物笛卡尔坐标的文件集,每个文件注释行提供了单体质荷信息、基准相互作用能值及SAPT能量分解组分。数据集适用于全面评估经典力场、极化力场、密度泛函近似、波函数理论方法以及机器学习势函数的性能。鉴于数据点沿势能面存在强相关性,建议在划分训练集与测试集时避免将同一势能面的采样点分离,以防止过拟合问题。通过该数据集,研究者可深入探究非平衡构型下各类非共价相互作用的精确描述挑战。
背景与挑战
背景概述
非共价相互作用在化学与生物学领域扮演着核心角色,其强度介于热涨落与共价键之间,对分子结构、稳定性及功能具有决定性影响。为满足化学科学对大规模高质量量子力学数据的迫切需求,康奈尔大学Robert A. DiStasio Jr.团队于2021年推出了NENCI-2021基准数据库。该数据库以广泛使用的S66和S101数据集为基础,通过纳入40种阳离子-π和阴离子-π复合物,并系统采样141个分子二聚体的非平衡势能面,构建了包含约8,000个CCSD(T)/CBS级别相互作用能的综合性资源。其核心研究在于为下一代力场、密度泛函理论近似及机器学习势函数提供精确的训练与测试基准,显著拓展了非共价相互作用研究的深度与广度。
当前挑战
NENCI-2021致力于解决非共价相互作用领域的关键挑战:一是需在统一框架内准确描述氢键、π-π堆积及离子-π相互作用等多种结合模式;二是需精确刻画非平衡构型,尤其是短程强排斥接触区域,该区域涉及电荷穿透、泡利排斥等复杂量子效应,对理论方法构成严峻考验。在构建过程中,研究团队面临双重困难:首先,为涵盖诱导主导的离子-π复合物,需克服高精度CCSD(T)/CBS计算中基组不完备性与电子相关能处理的误差控制问题;其次,在系统采样势能面时,需平衡短程接触的密集覆盖与计算成本,确保数据库在保持化学多样性的同时维持数据的一致性精度。
常用场景
经典使用场景
在计算化学领域,NENCI-2021数据库的经典应用场景在于为理论方法的验证与优化提供高精度基准数据。该数据集通过系统采样141个分子二聚体的非平衡构型,覆盖了从范德华包络内近距离接触到平衡距离的广泛相互作用范围,尤其强调短程非共价相互作用的精确描述。研究者常利用其约8000个CCSD(T)/CBS级别的相互作用能数据,评估密度泛函理论、极化力场及机器学习势函数在复杂化学环境中的表现,特别是在模拟生物分子识别、高压体系或反应过渡态等涉及强排斥或诱导作用的场景时,该数据集成为检验方法鲁棒性的黄金标准。
解决学术问题
NENCI-2021数据库致力于解决计算化学中长期存在的三大核心挑战:其一,填补了传统数据库在非平衡构型(尤其是短程强排斥作用)数据上的空白,为理论方法在完整势能面上的统一性能评估提供依据;其二,通过引入40个阳离子-π和阴离子-π复合物,显著扩展了诱导主导型相互作用的覆盖范围,解决了以往数据库对多样化非共价作用类型表征不足的问题;其三,以系统化的距离与角度采样策略,为研究集体性非共价作用(如多体效应、溶剂化效应)提供了理想化的替代模型。这些突破使得开发下一代计算方法时,能够更全面地兼顾精度、效率与普适性。
实际应用
在实际应用层面,NENCI-2021数据库为药物设计、材料科学及催化研究提供了关键的计算支撑。例如,在药物发现中,活性位点常涉及离子-π作用或短程氢键等复杂非共价模式,该数据集的高精度能量数据可用于优化分子对接力场参数,提升虚拟筛选的可靠性。在高压化学领域,其包含的近距离排斥作用数据能辅助理解超临界流体或高压合成中的分子堆积行为。此外,该数据集还可作为训练机器学习势函数的优质样本,推动可扩展量子力学模拟在生物大体系或软物质系统中的应用,加速功能性分子材料的理性设计。
数据集最近研究
最新研究方向
在非共价相互作用领域,NENCI-2021数据集作为大规模高精度量子化学基准数据库,正推动前沿研究聚焦于非平衡态与近距离分子接触的精确建模。该数据集通过系统采样141个分子二聚体的势能面,涵盖从静电、诱导、色散到混合作用的多重结合模式,尤其强化了离子-π相互作用的表征,为机器学习势函数、极化力场及密度泛函理论的开发提供了关键训练与验证资源。其强调的范德华包络内近距离相互作用,模拟了高压化学、生物分子识别及催化剂设计中的复杂非共价力,促使研究热点转向短程电荷穿透、泡利排斥等多体效应的统一描述,以提升跨尺度分子模拟的预测可靠性。
相关研究论文
  • 1
    NENCI-2021 Part I: A Large Benchmark Database of Non-Equilibrium Non-Covalent Interactions Emphasizing Close Intermolecular Contacts · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作