five

Atomic Datasets

收藏
github2024-10-29 更新2024-10-30 收录
下载链接:
https://github.com/atomicarchitects/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个3D分子数据集,如QM9、GEOM、tmQM,以及一些玩具数据集如Platonic Solids和3D Tetris。这些数据集主要用于原子建筑师的研究和应用。

This dataset comprises multiple 3D molecular datasets such as QM9, GEOM, and tmQM, as well as several toy datasets including Platonic Solids and 3D Tetris. These datasets are primarily utilized for the research and applications of Atomic Architect.
创建时间:
2024-10-29
原始信息汇总

Atomic Datasets

数据集概述

该仓库包含以下3D分子数据集:

  • QM9
  • GEOM (Drugs)
  • tmQM

以及以下玩具数据集:

  • Platonic Solids
  • 3D Tetris

安装方法

bash pip install git+https://github.com/atomicarchitects/datasets

示例代码

python from atomic_datasets.datasets import QM9Dataset

dataset = QM9Dataset( root_dir="data/qm9", check_molecule_sanity=True, use_edm_splits=True, num_train_molecules=10, num_val_molecules=10, num_test_molecules=10, )

for graph in dataset.all_structures(): # graph is a jraph.GraphsTuple object

引用信息

如果使用此仓库,请引用原始论文:

  • QM9:

@article{qm9, author = {Ramakrishnan, Raghunathan and Dral, Pavlo O. and Rupp, Matthias and von Lilienfeld, O. Anatole}, journal = {Scientific Data}, number = {1}, pages = {140022}, title = {Quantum chemistry structures and properties of 134 kilo molecules}, volume = {1}, year = {2014} }

  • GEOM:

@article{geom, author = {Axelrod, Simon and G{o}mez-Bombarelli, Rafael}, journal = {Scientific Data}, number = {1}, pages = {185}, title = {GEOM, energy-annotated molecular conformations for property prediction and molecular generation}, volume = {9}, year = {2022} }

  • tmQM:

@article{tmQM, author = {Balcells, David and Skjelstad, Bastian Bjerkem}, journal = {Journal of Chemical Information and Modeling}, month = {12}, number = {12}, pages = {6135--6146}, title = {tmQM Dataset---Quantum Geometries and Properties of 86k Transition Metal Complexes}, volume = {60}, year = {2020} }

  • 3D Tetris:

@phdthesis{ author={Smidt, Tess E.}, year={2018}, title={Toward the Systematic Design of Complex Materials from Structural Motifs}, journal={ProQuest Dissertations and Theses}, pages={200}, note={Copyright - Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works; Last updated - 2023-03-04}, language={English}, url={https://www.proquest.com/dissertations-theses/toward-systematic-design-complex-materials/docview/2137540057/se-2}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Atomic Datasets的构建基于多个权威的3D分子数据集,包括QM9、GEOM(Drugs)和tmQM,以及两个玩具数据集Platonic Solids和3D Tetris。这些数据集通过整合和标准化处理,形成了一个统一的框架,便于研究人员在分子结构和性质预测领域进行深入探索。每个数据集都经过严格的分子完整性检查和数据分割,确保数据的质量和可用性。
特点
Atomic Datasets的显著特点在于其多样性和高质量的数据。QM9数据集包含134,000个分子的量子化学结构和性质,GEOM数据集提供能量注释的分子构象,tmQM数据集则专注于过渡金属化合物的量子几何和性质。此外,Platonic Solids和3D Tetris作为玩具数据集,为初学者和研究者提供了简单而有趣的分子结构模型。
使用方法
使用Atomic Datasets,首先通过pip安装相应的Python包,然后可以导入特定的数据集类,如QM9Dataset。用户可以根据需求设置数据集的根目录、分子完整性检查和数据分割参数。通过遍历数据集的结构,用户可以获取jraph.GraphsTuple对象,用于进一步的分子分析和机器学习模型的训练。
背景与挑战
背景概述
Atomic Datasets是由多个3D分子数据集组成的集合,包括QM9、GEOM(Drugs)、tmQM等,以及一些玩具数据集如Platonic Solids和3D Tetris。这些数据集主要用于量子化学和分子建模领域,旨在提供丰富的分子结构和性质数据,以支持相关研究。QM9数据集由Ramakrishnan等人于2014年创建,包含134,000个分子的量子化学结构和性质,极大地推动了分子建模和材料科学的发展。GEOM数据集由Axelrod和Gómez-Bombarelli于2022年发布,专注于能量注释的分子构象,为属性预测和分子生成提供了重要资源。tmQM数据集则由Balcells和Skjelstad于2020年推出,涵盖86,000个过渡金属复合物的量子几何和性质,对过渡金属化学研究具有重要意义。
当前挑战
Atomic Datasets在构建过程中面临多项挑战。首先,数据集的多样性和复杂性要求高精度的数据处理和验证,以确保数据的准确性和可靠性。例如,QM9数据集需要对大量分子的量子化学性质进行精确计算和验证,这需要强大的计算资源和复杂的算法支持。其次,不同数据集之间的整合和标准化也是一个重要挑战,确保数据在不同研究中能够无缝使用。此外,数据集的更新和扩展也需要持续的维护和资源投入,以适应不断发展的研究需求。最后,数据集的广泛应用和引用要求其具有高度的可访问性和易用性,这对数据集的文档和接口设计提出了高标准。
常用场景
经典使用场景
在量子化学领域,Atomic Datasets中的QM9数据集被广泛用于预测小分子的物理化学性质,如能量、电荷分布和振动频率。通过分析这些数据,研究人员能够优化分子设计,从而在药物发现和材料科学中实现更高效的化合物筛选。此外,GEOM数据集则为药物分子提供了详细的能量注释,有助于理解和预测分子在不同构象下的行为,进一步推动药物设计的精确性。
解决学术问题
Atomic Datasets通过提供高质量的3D分子数据,解决了量子化学和药物设计领域中长期存在的数据稀缺问题。QM9数据集的引入,使得研究人员能够在大规模分子数据上进行机器学习模型的训练,从而提高了预测模型的准确性和泛化能力。GEOM数据集则为药物分子的构象分析提供了丰富的能量信息,有助于揭示分子在不同环境下的稳定性和反应性,为药物设计提供了坚实的理论基础。
衍生相关工作
基于Atomic Datasets,许多研究工作得以展开,如利用QM9数据集进行分子动力学模拟,以研究分子的热力学性质。GEOM数据集则启发了大量关于分子构象生成和优化的研究,推动了生成对抗网络(GANs)在药物设计中的应用。tmQM数据集的研究则进一步深化了对过渡金属化合物性质的理解,为新型催化剂的设计提供了理论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作