five

GEOM-DRUGS_ADiT

收藏
Hugging Face2025-05-12 更新2025-05-13 收录
下载链接:
https://huggingface.co/datasets/chaitjo/GEOM-DRUGS_ADiT
下载链接
链接失效反馈
官方服务:
资源简介:
GEOM-DRUGS数据集来源于论文《All-atom Diffusion Transformers: Unified generative modelling of molecules and materials》,该数据集用于分子和材料的统一生成建模研究。

GEOM-DRUGS数据集源自论文《全原子扩散Transformer(All-atom Diffusion Transformers):分子与材料的统一生成建模》,该数据集用于分子和材料的统一生成建模研究。
创建时间:
2025-05-12
原始信息汇总

GEOM-DRUGS数据集概述

数据集来源

  • 论文标题:All-atom Diffusion Transformers: Unified generative modelling of molecules and materials
  • 论文链接:https://www.arxiv.org/abs/2503.03965
  • 作者:Chaitanya K. Joshi, Xiang Fu, Yi-Lun Liao, Vahe Gharakhanyan, Benjamin Kurt Miller, Anuroop Sriram*, Zachary W. Ulissi*
  • 机构:FAIR Chemistry at Meta

原始数据源

  • https://github.com/cvignac/MiDi?tab=readme-ov-file#datasets
  • https://github.com/learningmatter-mit/geom

相关资源

  • GitHub项目:https://github.com/facebookresearch/all-atom-diffusion-transformer

许可信息

  • 许可证类型:MIT
搜集汇总
数据集介绍
main_image_url
构建方式
GEOM-DRUGS_ADiT数据集的构建源于对分子和材料统一生成建模的深入研究。该数据集整合了GEOM-DRUGS的原始数据,通过先进的扩散变换器技术对分子和材料进行全原子级别的建模。数据来源包括公开的GEOM数据库和MiDi项目,确保了数据的广泛覆盖和高质量。构建过程中采用了严格的标准化流程,确保每个数据点的准确性和一致性,为后续研究提供了可靠的基础。
特点
GEOM-DRUGS_ADiT数据集以其全原子级别的建模能力脱颖而出,涵盖了广泛的分子和材料结构。数据集中的每个样本都经过精确的扩散变换器处理,能够捕捉复杂的原子间相互作用和空间构型。其多样化的数据范围从简单有机分子到复杂材料体系,为生成建模和多尺度模拟研究提供了丰富的资源。数据的高精度和一致性使其成为计算化学和材料科学领域的理想选择。
使用方法
使用GEOM-DRUGS_ADiT数据集时,研究人员可通过GitHub提供的工具链直接加载和处理数据。数据集支持多种格式,便于与主流计算化学软件兼容。用户可以利用预训练的扩散变换器模型进行分子和材料的生成与优化,或基于现有数据开展新的建模研究。详细的文档和示例代码降低了使用门槛,使研究者能够快速上手并应用于实际问题。
背景与挑战
背景概述
GEOM-DRUGS_ADiT数据集由Meta公司的FAIR Chemistry团队于2024年提出,核心研究团队包括Chaitanya K. Joshi、Xiang Fu等学者。该数据集源自论文《All-atom Diffusion Transformers: Unified generative modelling of molecules and materials》,旨在解决分子与材料统一生成建模这一前沿科学问题。作为分子生成领域的重要资源,它为扩散变换器在原子尺度上的生成任务提供了标准化基准,显著推动了药物发现和材料设计领域的算法发展。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,分子生成需要精确捕捉原子间的复杂相互作用与三维空间构型,这对生成模型的几何保真度提出了极高要求;在构建过程层面,原始数据的多源异构性(来自GEOM和MiDi等不同数据库)导致数据清洗与标准化面临巨大挑战,需要开发专门的预处理流程来确保数据质量与一致性。
常用场景
经典使用场景
在分子生成与材料设计领域,GEOM-DRUGS_ADiT数据集为研究者提供了丰富的全原子结构数据。该数据集常用于训练扩散变换模型,支持从随机噪声到稳定分子构象的生成过程,尤其适用于探索药物分子和功能材料的潜在空间分布。通过整合几何约束与能量最小化原则,研究人员能够高效地模拟复杂分子系统的动态行为。
解决学术问题
该数据集有效解决了分子生成模型中三维构象多样性不足的瓶颈问题。传统方法受限于二维图表示或简化力场,而GEOM-DRUGS_ADiT提供的全原子坐标数据,使扩散变换模型能够精确捕捉分子扭转角、非共价相互作用等关键特征。这项工作为统一处理有机分子和无机材料体系建立了新的基准,推动了生成式AI在计算化学中的应用边界。
衍生相关工作
基于此数据集开发的All-atom Diffusion Transformer框架,已衍生出多个分子动力学与性质预测的改进模型。例如后续研究提出的SE(3)-Equivariant扩散方法增强了旋转不变性处理,而Hierarchical Diffusion架构则实现了从粗粒度到原子尺度的多级生成。这些工作持续推动着生成模型在计算化学中的精度与效率突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作