five

ANI-1|分子模拟数据集|计算化学数据集

收藏
github2024-04-20 更新2024-05-31 收录
分子模拟
计算化学
下载链接:
https://github.com/isayev/ANI1_dataset
下载链接
链接失效反馈
资源简介:
ANI-1数据集包含2000万个计算非平衡构型的有机分子数据,用于支持分子模拟和计算化学研究。

The ANI-1 dataset comprises 20 million computational data points of non-equilibrium configurations of organic molecules, designed to support molecular simulation and computational chemistry research.
创建时间:
2017-08-08
原始信息汇总

数据集概述

  • 名称: ANI-1数据集
  • 用途: 提供2000万个计算得到的非平衡构象的有机分子数据,用于开发具有DFT精度且计算成本接近力场方法的神经网络势能模型。

数据集内容

  • 数据格式: 存储于HDF5文件格式中,包含8个HDF5文件,文件名为ani_gdb_s0x.h5,其中x表示分子中重原子(CNO)的数量。
  • 数据内容: 包含分子的坐标(单位:埃)和能量(单位:哈特里)。

数据集引用

  • 引用文献1: Justin S. Smith, Olexandr Isayev, Adrian E. Roitberg. ANI-1: An extensible neural network potential with DFT accuracy at force field computational cost. Chemical Science, 2017, DOI: 10.1039/C6SC05720A
  • 引用文献2: Justin S. Smith, Olexandr Isayev, Adrian E. Roitberg. ANI-1, A data set of 20 million calculated off-equilibrium conformations for organic molecules. Scientific Data, 4, Article number: 170193, DOI: 10.1038/sdata.2017.193

数据集使用

  • 软件要求: Python3.5及以上版本,Numpy,H5PY。
  • 提取软件: 包含pyanitools.pyexample_data_sampler.py,用于加载和解析ANI-1数据集。
  • 安装与测试: 需将ANI-1_release/readers/lib/添加到PYTHONPATH,并通过运行example_data_sampler.py进行测试。

数据集详细信息

  • 文件提取: 使用命令tar -xzf ani-1_dataset.tar.gz在Unix系统上提取数据集。
  • 数据单位: 坐标单位为埃,能量单位为哈特里。
  • 自相互作用原子能量: H = -0.500607632585, C = -37.8302333826, N = -54.5680045287, O = -75.0362229210。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建ANI-1数据集的过程中,研究者们通过计算有机分子的大量非平衡构象,生成了一个包含2000万条数据的庞大数据集。这些数据是通过密度泛函理论(DFT)计算得出的,涵盖了碳(C)、氮(N)和氧(O)等重原子的分子构象。数据集以HDF5文件格式存储,分为8个文件,每个文件对应不同数量的重原子。这种构建方式确保了数据的高精度和广泛覆盖,为后续的神经网络势能模型训练提供了坚实的基础。
特点
ANI-1数据集的主要特点在于其规模庞大且精度高。该数据集包含了2000万条有机分子的非平衡构象数据,覆盖了多种重原子组合,确保了数据的多样性和广泛性。此外,数据以HDF5格式存储,便于高效的数据读取和处理。数据集还提供了自相互作用原子能量,进一步增强了其在分子动力学模拟中的应用潜力。
使用方法
使用ANI-1数据集时,用户需先安装Python 3.5及以上版本,并确保安装了Numpy和H5PY库。数据集的读取可通过提供的pyanitools.py脚本中的anidataloader类实现,该类支持数据的加载和解析。用户可以通过运行example_data_sampler.py脚本进行数据采样,以验证数据集的读取和使用。数据集的坐标单位为埃(Angstroms),能量单位为哈特里(Hartrees),确保了数据的标准化和一致性。
背景与挑战
背景概述
ANI-1数据集由Justin S. Smith、Olexandr Isayev和Adrian E. Roitberg等研究人员于2017年创建,旨在通过大规模计算有机分子在非平衡构象下的能量和力场,提供具有密度泛函理论(DFT)精度的神经网络势能模型。该数据集包含了2000万个计算得到的分子构象,涵盖了碳(C)、氮(N)和氧(O)等主要元素,极大地推动了分子动力学和计算化学领域的发展。ANI-1的发布不仅为研究者提供了一个高效且精确的计算工具,还为机器学习在化学领域的应用奠定了坚实的基础。
当前挑战
ANI-1数据集在构建过程中面临了多个挑战。首先,生成2000万个分子构象需要大量的计算资源和时间,这对计算能力和存储空间提出了极高的要求。其次,数据集的存储和访问也是一个技术难题,采用了HDF5文件格式以高效管理大规模数据。此外,如何确保数据集的广泛适用性和准确性,尤其是在不同计算环境和软件中的兼容性,也是一大挑战。最后,数据集的扩展性和更新机制需要进一步优化,以适应未来更复杂的化学研究需求。
常用场景
经典使用场景
在分子动力学领域,ANI-1数据集的经典应用场景主要体现在其对有机分子非平衡构象的高精度计算能力。该数据集包含了2000万个有机分子的非平衡构象,涵盖了碳、氮、氧等元素的组合。通过使用神经网络势能模型,ANI-1能够在保持计算效率的同时,提供接近密度泛函理论(DFT)精度的能量和力场计算结果。这使得ANI-1成为研究分子动力学、化学反应路径以及材料科学中分子结构与性质关系的重要工具。
实际应用
在实际应用中,ANI-1数据集被广泛应用于药物设计、材料科学和化学工业等领域。例如,在药物设计中,ANI-1能够快速预测分子构象和能量,帮助筛选潜在药物分子。在材料科学中,ANI-1可用于研究新型材料的分子结构与性能关系,加速材料开发进程。此外,ANI-1还在化学工业中用于优化反应条件和提高产物收率,显著提升了工业生产的效率和精度。
衍生相关工作
基于ANI-1数据集,研究者进一步开发了ANI-1x等扩展模型,通过主动学习技术优化了数据集的采样策略,提升了模型的泛化能力和计算效率。这些衍生工作不仅在分子动力学模拟中表现出色,还为其他领域的机器学习应用提供了新的思路。例如,ANI-1x在化学反应预测和材料设计中的应用,展示了其在复杂系统建模中的潜力,推动了相关领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

rule34lol-images-part2

该数据集'rule34lol-images-part2'是'rule34lol-images'数据集的第二部分,包含来自rule34.lol图像板的77,000个图像文件的元数据。数据集包括每个图像的URL、图像URL、文件路径和标签等字段。图像存储在zip存档中,并提供索引文件以便于访问。该数据集采用CC0许可,允许无限制使用、修改和分发。

huggingface 收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集,由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像,涵盖了多种环境条件下的舌象,图像通过智能手机和笔记本电脑摄像头采集,具有较高的多样性和代表性。数据集不仅包含舌象图像,还提供了详细的舌面属性标注,如舌色、舌苔厚度等,并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注,旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断,旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录

O*NET

O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录