five

ANI-1

收藏
github2024-04-20 更新2024-05-31 收录
下载链接:
https://github.com/isayev/ANI1_dataset
下载链接
链接失效反馈
资源简介:
ANI-1数据集包含2000万个计算非平衡构型的有机分子数据,用于支持分子模拟和计算化学研究。

The ANI-1 dataset comprises 20 million computational data points of non-equilibrium configurations of organic molecules, designed to support molecular simulation and computational chemistry research.
创建时间:
2017-08-08
原始信息汇总

数据集概述

  • 名称: ANI-1数据集
  • 用途: 提供2000万个计算得到的非平衡构象的有机分子数据,用于开发具有DFT精度且计算成本接近力场方法的神经网络势能模型。

数据集内容

  • 数据格式: 存储于HDF5文件格式中,包含8个HDF5文件,文件名为ani_gdb_s0x.h5,其中x表示分子中重原子(CNO)的数量。
  • 数据内容: 包含分子的坐标(单位:埃)和能量(单位:哈特里)。

数据集引用

  • 引用文献1: Justin S. Smith, Olexandr Isayev, Adrian E. Roitberg. ANI-1: An extensible neural network potential with DFT accuracy at force field computational cost. Chemical Science, 2017, DOI: 10.1039/C6SC05720A
  • 引用文献2: Justin S. Smith, Olexandr Isayev, Adrian E. Roitberg. ANI-1, A data set of 20 million calculated off-equilibrium conformations for organic molecules. Scientific Data, 4, Article number: 170193, DOI: 10.1038/sdata.2017.193

数据集使用

  • 软件要求: Python3.5及以上版本,Numpy,H5PY。
  • 提取软件: 包含pyanitools.pyexample_data_sampler.py,用于加载和解析ANI-1数据集。
  • 安装与测试: 需将ANI-1_release/readers/lib/添加到PYTHONPATH,并通过运行example_data_sampler.py进行测试。

数据集详细信息

  • 文件提取: 使用命令tar -xzf ani-1_dataset.tar.gz在Unix系统上提取数据集。
  • 数据单位: 坐标单位为埃,能量单位为哈特里。
  • 自相互作用原子能量: H = -0.500607632585, C = -37.8302333826, N = -54.5680045287, O = -75.0362229210。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建ANI-1数据集的过程中,研究者们通过计算有机分子的大量非平衡构象,生成了一个包含2000万条数据的庞大数据集。这些数据是通过密度泛函理论(DFT)计算得出的,涵盖了碳(C)、氮(N)和氧(O)等重原子的分子构象。数据集以HDF5文件格式存储,分为8个文件,每个文件对应不同数量的重原子。这种构建方式确保了数据的高精度和广泛覆盖,为后续的神经网络势能模型训练提供了坚实的基础。
特点
ANI-1数据集的主要特点在于其规模庞大且精度高。该数据集包含了2000万条有机分子的非平衡构象数据,覆盖了多种重原子组合,确保了数据的多样性和广泛性。此外,数据以HDF5格式存储,便于高效的数据读取和处理。数据集还提供了自相互作用原子能量,进一步增强了其在分子动力学模拟中的应用潜力。
使用方法
使用ANI-1数据集时,用户需先安装Python 3.5及以上版本,并确保安装了Numpy和H5PY库。数据集的读取可通过提供的pyanitools.py脚本中的anidataloader类实现,该类支持数据的加载和解析。用户可以通过运行example_data_sampler.py脚本进行数据采样,以验证数据集的读取和使用。数据集的坐标单位为埃(Angstroms),能量单位为哈特里(Hartrees),确保了数据的标准化和一致性。
背景与挑战
背景概述
ANI-1数据集由Justin S. Smith、Olexandr Isayev和Adrian E. Roitberg等研究人员于2017年创建,旨在通过大规模计算有机分子在非平衡构象下的能量和力场,提供具有密度泛函理论(DFT)精度的神经网络势能模型。该数据集包含了2000万个计算得到的分子构象,涵盖了碳(C)、氮(N)和氧(O)等主要元素,极大地推动了分子动力学和计算化学领域的发展。ANI-1的发布不仅为研究者提供了一个高效且精确的计算工具,还为机器学习在化学领域的应用奠定了坚实的基础。
当前挑战
ANI-1数据集在构建过程中面临了多个挑战。首先,生成2000万个分子构象需要大量的计算资源和时间,这对计算能力和存储空间提出了极高的要求。其次,数据集的存储和访问也是一个技术难题,采用了HDF5文件格式以高效管理大规模数据。此外,如何确保数据集的广泛适用性和准确性,尤其是在不同计算环境和软件中的兼容性,也是一大挑战。最后,数据集的扩展性和更新机制需要进一步优化,以适应未来更复杂的化学研究需求。
常用场景
经典使用场景
在分子动力学领域,ANI-1数据集的经典应用场景主要体现在其对有机分子非平衡构象的高精度计算能力。该数据集包含了2000万个有机分子的非平衡构象,涵盖了碳、氮、氧等元素的组合。通过使用神经网络势能模型,ANI-1能够在保持计算效率的同时,提供接近密度泛函理论(DFT)精度的能量和力场计算结果。这使得ANI-1成为研究分子动力学、化学反应路径以及材料科学中分子结构与性质关系的重要工具。
实际应用
在实际应用中,ANI-1数据集被广泛应用于药物设计、材料科学和化学工业等领域。例如,在药物设计中,ANI-1能够快速预测分子构象和能量,帮助筛选潜在药物分子。在材料科学中,ANI-1可用于研究新型材料的分子结构与性能关系,加速材料开发进程。此外,ANI-1还在化学工业中用于优化反应条件和提高产物收率,显著提升了工业生产的效率和精度。
衍生相关工作
基于ANI-1数据集,研究者进一步开发了ANI-1x等扩展模型,通过主动学习技术优化了数据集的采样策略,提升了模型的泛化能力和计算效率。这些衍生工作不仅在分子动力学模拟中表现出色,还为其他领域的机器学习应用提供了新的思路。例如,ANI-1x在化学反应预测和材料设计中的应用,展示了其在复杂系统建模中的潜力,推动了相关领域的技术进步。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作