MISATO
收藏MISATO数据集概述
数据集描述
MISATO是一个用于结构基础药物发现的蛋白质-配体复合物的机器学习数据集。该数据集包含以下主要组成部分:
- Quantum Mechanics (QM): 包含19443个经过精选和优化的配体。
- Molecular Dynamics (MD): 包含16972个模拟的蛋白质-配体结构,每个结构模拟时间为10纳秒。
- AI模型: 提供基于PyTorch的数据加载器和3个基准模型,用于MD和QM以及结合亲和力预测。
数据集内容
数据集提供了多种数据文件,包括:
- MD: 133 GiB
- QM: 0.3 GiB
- 电子密度: 6 GiB
- MD重启和拓扑文件: 55 GiB
数据集使用
用户可以通过以下方式访问和使用数据集:
- 通过提供的笔记本
src/getting_started.ipynb了解数据集结构和如何访问每个分子的属性。 - 加载PyTorch数据加载器和PyTorch Lightning数据模块。
数据集下载
用户可以从Zenodo下载完整的数据集,具体链接如下:
数据集结构
数据集的目录结构如下:
├── data <- 项目数据
│ ├── MD
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试分割
│ └── QM
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试分割
├── src <- 源代码
│ ├── data
│ │ ├── components <- 数据集和转换
│ │ ├── md_datamodule.py <- MD Lightning数据模块
│ │ ├── qm_datamodule.py <- QM Lightning数据模块
│ │ │
│ │ └── processing <- 预处理、推理和转换脚本
│ ├── getting_started.ipynb <- 如何加载数据和交互的笔记本
│ └── inference.ipynb <- 运行推理的笔记本
├── docker <- Dockerfile和执行脚本
└── README.md
安装和环境设置
推荐使用Docker或conda环境进行安装和配置。具体安装步骤包括创建特定环境、安装必要的库和工具,以及配置PyTorch和PyTorch Lightning。
引用信息
如需引用此数据集,请使用以下BibTeX条目:
bibtex @article{siebenmorgen2024misato, title={MISATO: machine learning dataset of protein--ligand complexes for structure-based drug discovery}, author={Siebenmorgen, Till and Menezes, Filipe and Benassou, Sabrina and Merdivan, Erinc and Didi, Kieran and Mour{~a}o, Andr{e} Santos Dias and Kitel, Rados{l}aw and Li{`o}, Pietro and Kesselheim, Stefan and Piraud, Marie and others}, journal={Nature Computational Science}, pages={1--12}, year={2024}, publisher={Nature Publishing Group US New York} }




