five

GEOM-DRUGS_ADiT|分子建模数据集|材料科学数据集

收藏
huggingface2025-05-12 更新2025-05-13 收录
分子建模
材料科学
下载链接:
https://huggingface.co/datasets/chaitjo/GEOM-DRUGS_ADiT
下载链接
链接失效反馈
资源简介:
GEOM-DRUGS数据集来源于论文《All-atom Diffusion Transformers: Unified generative modelling of molecules and materials》,该数据集用于分子和材料的统一生成建模研究。
创建时间:
2025-05-12
原始信息汇总

GEOM-DRUGS数据集概述

数据集来源

  • 论文标题:All-atom Diffusion Transformers: Unified generative modelling of molecules and materials
  • 论文链接:https://www.arxiv.org/abs/2503.03965
  • 作者:Chaitanya K. Joshi, Xiang Fu, Yi-Lun Liao, Vahe Gharakhanyan, Benjamin Kurt Miller, Anuroop Sriram*, Zachary W. Ulissi*
  • 机构:FAIR Chemistry at Meta

原始数据源

  • https://github.com/cvignac/MiDi?tab=readme-ov-file#datasets
  • https://github.com/learningmatter-mit/geom

相关资源

  • GitHub项目:https://github.com/facebookresearch/all-atom-diffusion-transformer

许可信息

  • 许可证类型:MIT
AI搜集汇总
数据集介绍
main_image_url
构建方式
GEOM-DRUGS_ADiT数据集的构建源于对分子和材料统一生成建模的深入研究。该数据集整合了GEOM-DRUGS的原始数据,通过先进的扩散变换器技术对分子和材料进行全原子级别的建模。数据来源包括公开的GEOM数据库和MiDi项目,确保了数据的广泛覆盖和高质量。构建过程中采用了严格的标准化流程,确保每个数据点的准确性和一致性,为后续研究提供了可靠的基础。
特点
GEOM-DRUGS_ADiT数据集以其全原子级别的建模能力脱颖而出,涵盖了广泛的分子和材料结构。数据集中的每个样本都经过精确的扩散变换器处理,能够捕捉复杂的原子间相互作用和空间构型。其多样化的数据范围从简单有机分子到复杂材料体系,为生成建模和多尺度模拟研究提供了丰富的资源。数据的高精度和一致性使其成为计算化学和材料科学领域的理想选择。
使用方法
使用GEOM-DRUGS_ADiT数据集时,研究人员可通过GitHub提供的工具链直接加载和处理数据。数据集支持多种格式,便于与主流计算化学软件兼容。用户可以利用预训练的扩散变换器模型进行分子和材料的生成与优化,或基于现有数据开展新的建模研究。详细的文档和示例代码降低了使用门槛,使研究者能够快速上手并应用于实际问题。
背景与挑战
背景概述
GEOM-DRUGS_ADiT数据集由Meta公司的FAIR Chemistry团队于2024年提出,核心研究团队包括Chaitanya K. Joshi、Xiang Fu等学者。该数据集源自论文《All-atom Diffusion Transformers: Unified generative modelling of molecules and materials》,旨在解决分子与材料统一生成建模这一前沿科学问题。作为分子生成领域的重要资源,它为扩散变换器在原子尺度上的生成任务提供了标准化基准,显著推动了药物发现和材料设计领域的算法发展。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,分子生成需要精确捕捉原子间的复杂相互作用与三维空间构型,这对生成模型的几何保真度提出了极高要求;在构建过程层面,原始数据的多源异构性(来自GEOM和MiDi等不同数据库)导致数据清洗与标准化面临巨大挑战,需要开发专门的预处理流程来确保数据质量与一致性。
常用场景
经典使用场景
在分子生成与材料设计领域,GEOM-DRUGS_ADiT数据集为研究者提供了丰富的全原子结构数据。该数据集常用于训练扩散变换模型,支持从随机噪声到稳定分子构象的生成过程,尤其适用于探索药物分子和功能材料的潜在空间分布。通过整合几何约束与能量最小化原则,研究人员能够高效地模拟复杂分子系统的动态行为。
解决学术问题
该数据集有效解决了分子生成模型中三维构象多样性不足的瓶颈问题。传统方法受限于二维图表示或简化力场,而GEOM-DRUGS_ADiT提供的全原子坐标数据,使扩散变换模型能够精确捕捉分子扭转角、非共价相互作用等关键特征。这项工作为统一处理有机分子和无机材料体系建立了新的基准,推动了生成式AI在计算化学中的应用边界。
衍生相关工作
基于此数据集开发的All-atom Diffusion Transformer框架,已衍生出多个分子动力学与性质预测的改进模型。例如后续研究提出的SE(3)-Equivariant扩散方法增强了旋转不变性处理,而Hierarchical Diffusion架构则实现了从粗粒度到原子尺度的多级生成。这些工作持续推动着生成模型在计算化学中的精度与效率突破。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FAOSTAT

FAOSTAT provides time-series data about agriculture, nutrition, fisheries, forestry and food aid by country and region from 1961 to present. FAOSTAT is a multilingual database. Data can be searched, browsed, and downloaded.

re3data.org 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录