Graph Diffusion Models Datasets
收藏github2024-08-06 更新2024-08-07 收录
下载链接:
https://github.com/yuntaoshou/Graph-Diffusion-Models-A-Comprehensive-Survey-of-Methods-and-Applications
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于图扩散模型的各种数据集,涉及分子生成和运动生成等领域。
This dataset encompasses a collection of datasets tailored for graph diffusion models, spanning domains including molecular generation and motion generation.
创建时间:
2024-07-22
原始信息汇总
数据集概述
数据集内容
该数据集包含多种类型的图数据,主要用于图扩散模型的研究。数据集涵盖了分子生成、运动生成等多个领域。
数据集分类
数据集主要分为以下几类:
- 分子生成:包括分子设计、构象设计、新药设计、配体对接、蛋白质设计等。
- 运动生成:包括运动合成、运动预测等。
- 其他:包括社交网络、蛋白质结构等。
数据集详细信息
分子生成
| 方法 | 论文 | 代码 | 方法 | 论文 | 代码 |
|---|---|---|---|---|---|
| DiGress (ICLR-23) | [paper] | [code] | MiDi (ICLR-23) | [paper] | [code] |
| CDGS (NeurIPS-22) | [paper] | [code] | GCDM (ICLR-23) | [paper] | [code] |
| EDM (ICML-22) | [paper] | [code] | Wu et al. (NeurIPS-22) | [paper] | - |
| MDM (AAAI-23) | [paper] | [code] | DiffLinker | [paper] | [code] |
| JODO | [paper] | [code] | SILVR | [paper] | - |
| HierDiff (ICML-23) | [paper] | [code] | - | - | - |
| BIMODAL | [paper] | [code] | RationaleRL (ICML20) | [paper] | [code] |
| GEOLDM (ICML-23) | [paper] | [code] | MGM | [paper] | - |
| LFM AISTATS-20 | [paper] | [code] | RetMol | [paper] | [code] |
| MolGPT | [paper] | - | Bridge (NeurIPS-2022) | [paper] | - |
| Bresson et al. | [paper] | - | FLAG (ICLR-23) | [paper] | [code] |
| LIMO | [paper] | [code] | D3FG NeurIPS-24 | [paper] | [code] |
运动生成
| 方法 | 论文 | 代码 | 主页 |
|---|---|---|---|
| MotionDiffuse | [paper] | [code] | [homepage] |
| Modiff | [paper] | - | - |
| Ren et al. (ICASSP-23) | [paper] | - | - |
| FLAME (AAAI-23) | [paper] | - | - |
| MoFusion (CVPR-23) | [paper] | - | [homepage] |
| MDM (ICLR-23) | [paper] | [code] | [homepage] |
| MLD (CVPR-23) | [paper] | [code] | [homepage] |
| PriorMDM | [paper] | [code] | [homepage] |
| Alexanderson et al. (ACM Trans. Graph.) | [paper] | - | - |
| EDGE (CVPR-23) | [paper] | [code] | [homepage] |
| SceneDiffuser | [paper] | [code] | [homepage] |
| MoDi (CVPR-23) | [paper] | [code] | [homepage] |
| BiGraphDiff | [paper] | - | - |
| DiffuPose | [paper] | - | - |
数据集列表
| 数据集 | 维度 | 类别 | 图数量 (G) | 节点数量 (N) |
|---|---|---|---|---|
| Community-small | 2D | 社交 | 100 | 11 < N < 20 |
| Ego-small | 2D | 社交 | 200 | 3 < N < 18 |
| Grid | 2D | 网格 | 100 | N <= 400 |
| QM9 | 3D | 生物信息学/分子 | 130,831 | 3 < N < 29 |
| ZINC250K | 3D | 生物信息学/分子 | 249,456 | 6 < N < 38 |
| Enzymes | 3D | 生物信息学/蛋白质 | 600 | 9 < N < 125 |
| SBM-27 | 2D | 社交 | 200 | 24 < N < 27 |
| Planar-60 | 2D | 社交 | 200 | N = 60 |
| AIDS | 2D | 生物信息学/分子 | 2000 | - |
| Synthie | 2D | 社交 | 300 | N = 100 |
| Proteins | 3D | 生物信息学/蛋白质 | 1113 | N = 39.1 |
搜集汇总
数据集介绍

构建方式
Graph Diffusion Models Datasets数据集的构建基于对多种图扩散模型的综合调研。该数据集汇集了从分子生成到运动生成的多个领域的图数据,涵盖了从2D到3D的不同维度。数据集的构建过程中,研究者们系统地收集并整理了来自不同领域的图数据,确保了数据的高质量和多样性。此外,数据集还包括了详细的元数据信息,如图的节点数和类别,以便于研究者进行深入分析和模型训练。
特点
Graph Diffusion Models Datasets数据集的主要特点在于其跨领域的广泛应用性和数据的高维度多样性。该数据集不仅包含了传统的社交网络数据,还扩展到了生物信息学和分子生物学领域,如分子和蛋白质的3D结构数据。这种多样性使得该数据集适用于多种图扩散模型的研究和应用,从分子设计到运动预测,展现了其在多个科学领域的潜在应用价值。
使用方法
使用Graph Diffusion Models Datasets数据集时,研究者可以根据具体的研究需求选择合适的子数据集。数据集提供了详细的文档和示例代码,帮助用户快速上手。用户可以通过API接口或直接下载数据集文件进行访问。此外,数据集还支持多种数据处理和分析工具,如Python的Pandas和NumPy库,便于进行数据预处理和模型训练。研究者可以根据自己的研究方向,选择合适的数据集进行实验和模型验证。
背景与挑战
背景概述
图扩散模型数据集(Graph Diffusion Models Datasets)是由西安交通大学(Xi'an Jiaotong University)的研究团队创建的,主要研究人员包括Shou Yuntao等。该数据集的核心研究问题集中在图扩散模型的方法和应用上,旨在通过系统性的综述和数据集的构建,推动图扩散模型在分子生成、运动生成等领域的应用。该数据集的创建时间为2023年,其影响力在于为相关领域的研究提供了丰富的资源和基准,促进了图扩散模型技术的进一步发展。
当前挑战
图扩散模型数据集在构建过程中面临多重挑战。首先,数据集的多样性和复杂性要求研究人员在处理不同类型的图结构时具备高度的专业知识。其次,数据集的规模和质量直接影响到模型的训练效果,因此如何高效地生成和验证大规模的图数据是一个关键问题。此外,图扩散模型在实际应用中需要解决的问题包括但不限于分子设计、蛋白质设计等,这些领域的高精度要求和复杂性为模型的优化和验证带来了额外的挑战。
常用场景
经典使用场景
在图扩散模型的研究领域中,Graph Diffusion Models Datasets数据集的经典应用场景主要集中在分子生成和运动生成两个方面。分子生成方面,该数据集支持从头分子设计、构象设计、从头配体设计、配体对接以及蛋白质设计等任务。运动生成方面,数据集涵盖了运动合成和运动预测的应用,为研究者提供了丰富的数据支持。这些应用场景不仅推动了图扩散模型在生物信息学和计算机视觉领域的深入研究,也为相关技术的实际应用奠定了基础。
解决学术问题
Graph Diffusion Models Datasets数据集在学术研究中解决了多个关键问题。首先,它为分子生成和蛋白质设计提供了高质量的数据支持,有助于研究者开发更高效的药物设计和蛋白质工程方法。其次,数据集在运动生成领域的应用,解决了复杂运动序列的合成和预测问题,推动了计算机图形学和人工智能在运动分析和生成方面的进展。这些研究不仅提升了模型的性能,还为相关领域的理论研究提供了实证支持,具有重要的学术意义和影响。
衍生相关工作
基于Graph Diffusion Models Datasets数据集,研究者们开展了多项经典工作。在分子生成领域,DiGress、MiDi和CDGS等方法通过数据集的支持,显著提升了分子生成的效率和质量。在运动生成领域,MotionDiffuse和MoFusion等模型利用数据集进行训练,实现了高质量的运动合成和预测。此外,数据集还促进了蛋白质设计领域的研究,如DiffAb和PROTSEED等方法的提出,为蛋白质工程提供了新的思路和工具。这些衍生工作不仅丰富了图扩散模型的理论体系,也推动了相关技术的实际应用和发展。
以上内容由遇见数据集搜集并总结生成



