five

S2EF Datasets, Misc. Atomistic Graph Datasets

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/VectorInstitute/AtomGen
下载链接
链接失效反馈
官方服务:
资源简介:
AtomGen支持的数据集包括S2EF数据集,这些数据集从多个来源如OC20, OC22, ODAC23, MPtrj, SPICE等聚合而来,包含结构和能量/力用于预训练。此外,还包括其他原子图数据集,如Molecule3D, Protein Data Bank (PDB), Open Quantum Materials Database (OQMD)。

AtomGen所支持的数据集涵盖了S2EF数据集,该数据集通过整合诸如OC20、OC22、ODAC23、MPtrj、SPICE等多个来源的数据而形成,其中蕴含了用于预训练的结构与能量/力信息。除此之外,还包括其他原子图数据集,例如Molecule3D、蛋白质数据库(PDB)以及开放量子材料数据库(OQMD)。
创建时间:
2024-04-11
原始信息汇总

数据集概述

数据集名称

  • AtomGen

数据集描述

  • AtomGen是一个专注于处理原子图数据集的框架,提供了一系列工具用于训练不同的模型、实验不同的预训练任务以及提供预训练模型。

数据集内容

  • S2EF Datasets: 包含来自多个源的数据,如OC20, OC22, ODAC23, MPtrj, 和 SPICE,用于预训练的结构和能量/力。
  • Misc. Atomistic Graph Datasets: 包括Molecule3D, Protein Data Bank (PDB), 和 Open Quantum Materials Database (OQMD)。

数据集用途

  • 用于原子图的大规模预训练和生成建模。

数据集预处理状态

  • 目前,AtomGen已为S2EF预训练任务预处理了OC20的数据集,以及一个混合了OC20, OC22, ODAC23, MPtrj, 和 SPICE的数据集。这些数据集已上传至huggingface hub,可通过datasets API访问。

数据集相关模型

  • 支持的模型: SchNet, TokenGT, Uni-Mol+ (Modified)

数据集相关任务

  • Structure to Energy & Forces: 预测原子图的能量和力。
  • Masked Atom Modeling: 掩蔽原子并预测其属性。
  • Coordinate Denoising: 去噪原子坐标。

数据集安装方法

  • 使用poetry进行安装: bash python3 -m poetry install source $(poetry env info --path)/bin/activate
搜集汇总
数据集介绍
main_image_url
构建方式
在构建S2EF Datasets及Misc. Atomistic Graph Datasets时,研究团队采用了多源数据聚合与标准化策略。具体而言,数据集包括从OC20、OC22、ODAC23、MPtrj及SPICE等多个来源收集的原子结构与能量/力数据,以及Molecule3D、Protein Data Bank (PDB)和Open Quantum Materials Database (OQMD)等其他原子图数据集。这些数据经过预处理后,被上传至huggingface hub,便于通过datasets API进行访问和使用。
特点
S2EF Datasets及Misc. Atomistic Graph Datasets的显著特点在于其多源数据的整合与标准化处理,这为大规模预训练和生成模型提供了坚实基础。此外,数据集支持多种预训练任务,如结构到能量与力的预测、掩码原子建模及坐标去噪,这些任务通过`DataCollatorForAtomModeling`类实现,可单独或同时使用。
使用方法
使用S2EF Datasets及Misc. Atomistic Graph Datasets时,用户可通过huggingface hub的datasets API直接访问预处理后的数据。安装AtomGen框架后,用户可以利用其提供的工具进行模型训练、预训练任务实验及生成模型开发。具体安装步骤包括使用poetry进行依赖管理,并通过命令行激活环境。
背景与挑战
背景概述
S2EF Datasets 和 Misc. Atomistic Graph Datasets 是由 Vector Institute 主导开发的数据集,专注于原子图数据的处理与分析。该数据集的创建旨在推动基于变换器的原子图模型的发展,特别是在大规模预训练和生成建模方面。通过整合来自多个来源的数据,如 OC20、OC22、ODAC23、MPtrj 和 SPICE,S2EF Datasets 提供了结构和能量/力的数据,为预训练任务提供了丰富的资源。此外,Misc. Atomistic Graph Datasets 包括 Molecule3D、Protein Data Bank (PDB) 和 Open Quantum Materials Database (OQMD),进一步扩展了数据集的多样性和应用范围。这些数据集的上传和标准化处理,极大地促进了原子图领域的研究进展。
当前挑战
尽管 S2EF Datasets 和 Misc. Atomistic Graph Datasets 在原子图领域具有显著的影响力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的多样性带来了数据整合和标准化的复杂性,确保不同来源数据的兼容性和一致性是一个重要挑战。其次,原子图数据的复杂性要求高效的模型训练和验证方法,如何在有限的计算资源下实现高效的预训练和生成建模是一个持续的研究问题。此外,数据集的更新和维护也是一个挑战,随着新数据源的加入和技术的进步,数据集需要不断更新以保持其前沿性和实用性。
常用场景
经典使用场景
在原子图数据集领域,S2EF Datasets和Misc. Atomistic Graph Datasets的经典使用场景主要集中在基于变换器的预训练和生成模型上。这些数据集通过整合来自OC20、OC22、ODAC23、MPtrj和SPICE等多个来源的结构和能量/力数据,为大规模预训练提供了坚实的基础。研究人员可以利用这些数据集进行结构到能量与力的预测、原子属性的掩码建模以及原子坐标的去噪等任务,从而推动原子图数据处理技术的发展。
实际应用
在实际应用中,S2EF Datasets和Misc. Atomistic Graph Datasets被广泛用于量子材料研究、分子动力学模拟以及药物发现等领域。例如,在量子材料研究中,这些数据集帮助科学家预测材料的能量和力场,从而加速新材料的设计和发现。在分子动力学模拟中,这些数据集提供了精确的原子结构和力场信息,有助于提高模拟的准确性和效率。此外,在药物发现领域,这些数据集支持基于原子图的药物分子设计,为新药研发提供了强大的数据支持。
衍生相关工作
基于S2EF Datasets和Misc. Atomistic Graph Datasets,衍生了一系列经典工作。例如,AtomFormer模型通过利用高斯成对位置嵌入和自注意力机制,显著提升了原子图数据的建模能力。SchNet模型则通过连续滤波卷积神经网络,在量子相互作用建模方面取得了突破。此外,TokenGT模型通过将所有节点和边视为独立令牌,进一步扩展了原子图数据处理的边界。这些工作不仅丰富了原子图数据处理的方法论,也为相关领域的研究提供了新的思路和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作