MISATO

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/t7morgen/misato-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MISATO是一个用于基于结构的药物发现的蛋白质-配体复合物的机器学习数据集，包含量子力学和分子动力学模拟的数据，以及用于药物发现预测的创新AI模型。

MISATO is a machine learning dataset for structure-based drug discovery, encompassing protein-ligand complexes, data from quantum mechanics and molecular dynamics simulations, as well as innovative AI models for drug discovery predictions.

创建时间：

2023-05-25

原始信息汇总

MISATO数据集概述

数据集描述

MISATO是一个用于结构基础药物发现的蛋白质-配体复合物的机器学习数据集。该数据集包含以下主要组成部分：

Quantum Mechanics (QM): 包含19443个经过精选和优化的配体。
Molecular Dynamics (MD): 包含16972个模拟的蛋白质-配体结构，每个结构模拟时间为10纳秒。
AI模型: 提供基于PyTorch的数据加载器和3个基准模型，用于MD和QM以及结合亲和力预测。

数据集内容

数据集提供了多种数据文件，包括：

MD: 133 GiB
QM: 0.3 GiB
电子密度: 6 GiB
MD重启和拓扑文件: 55 GiB

数据集使用

用户可以通过以下方式访问和使用数据集：

通过提供的笔记本src/getting_started.ipynb了解数据集结构和如何访问每个分子的属性。
加载PyTorch数据加载器和PyTorch Lightning数据模块。

数据集下载

用户可以从Zenodo下载完整的数据集，具体链接如下：

数据集结构

数据集的目录结构如下：

├── data <- 项目数据 │ ├── MD │ │ ├── h5_files <- 数据集存储 │ │ └── splits <- 训练、验证、测试分割 │ └── QM │ │ ├── h5_files <- 数据集存储 │ │ └── splits <- 训练、验证、测试分割 ├── src <- 源代码 │ ├── data
│ │ ├── components <- 数据集和转换 │ │ ├── md_datamodule.py <- MD Lightning数据模块 │ │ ├── qm_datamodule.py <- QM Lightning数据模块 │ │ │ │ │ └── processing <- 预处理、推理和转换脚本 │ ├── getting_started.ipynb <- 如何加载数据和交互的笔记本 │ └── inference.ipynb <- 运行推理的笔记本 ├── docker <- Dockerfile和执行脚本 └── README.md

安装和环境设置

推荐使用Docker或conda环境进行安装和配置。具体安装步骤包括创建特定环境、安装必要的库和工具，以及配置PyTorch和PyTorch Lightning。

引用信息

如需引用此数据集，请使用以下BibTeX条目：

bibtex @article{siebenmorgen2024misato, title={MISATO: machine learning dataset of protein--ligand complexes for structure-based drug discovery}, author={Siebenmorgen, Till and Menezes, Filipe and Benassou, Sabrina and Merdivan, Erinc and Didi, Kieran and Mour{~a}o, Andr{e} Santos Dias and Kitel, Rados{l}aw and Li{`o}, Pietro and Kesselheim, Stefan and Piraud, Marie and others}, journal={Nature Computational Science}, pages={1--12}, year={2024}, publisher={Nature Publishing Group US New York} }

搜集汇总

数据集介绍

构建方式

MISATO数据集的构建基于量子力学和分子动力学模拟，精心筛选并优化了19443个配体分子，并生成了16972个蛋白质-配体复合物的分子动力学模拟结构，每个模拟时长为10纳秒。通过这些模拟，数据集捕捉了蛋白质与配体之间的动态相互作用，为基于结构的药物发现提供了丰富的数据资源。此外，数据集还整合了AI模型，提供了PyTorch数据加载器和三个基准模型，用于分子动力学和量子力学的预测任务。

特点

MISATO数据集的显著特点在于其高精度的配体分子数据和蛋白质-配体复合物的动态表示。数据集不仅涵盖了大量的分子动力学模拟结构，还通过量子力学计算提供了配体的详细属性。此外，数据集支持PyTorch框架，提供了易于使用的数据加载器和预训练模型，便于研究人员快速上手并应用于药物发现的相关研究。

使用方法

MISATO数据集的使用方法简便，用户可以通过Zenodo平台下载完整的数据集，并利用提供的PyTorch数据加载器进行数据访问。数据集的结构清晰，用户可以通过提供的Jupyter Notebook示例快速了解如何加载和处理数据。此外，数据集还提供了Docker镜像和conda环境配置，确保用户能够在不同的计算环境中顺利运行和分析数据。

背景与挑战

背景概述

MISATO数据集是由一个专注于药物发现的研究社区项目创建的，旨在通过机器学习技术推动基于结构的药物发现。该数据集包含了19443个经过精心筛选和优化的配体分子，以及16972个通过分子动力学模拟生成的蛋白质-配体复合物结构，每个模拟时长为10纳秒。MISATO数据集的核心研究问题是如何在高精度下预测蛋白质与配体的结合亲和力，并利用创新的AI模型来加速药物发现过程。该数据集的发布对药物发现领域具有重要意义，尤其是在结构生物学和计算化学的交叉领域，为研究人员提供了丰富的实验数据和计算资源，推动了AI在药物设计中的应用。

当前挑战

MISATO数据集在构建过程中面临了多项挑战。首先，如何在高精度下模拟蛋白质-配体复合物的分子动力学行为，尤其是在100纳秒以上的长时间尺度上，是一个技术难题。其次，数据集的构建需要处理大量的计算资源和存储需求，尤其是分子动力学模拟产生的数据量巨大，如何高效地存储和访问这些数据是一个挑战。此外，如何设计创新的AI模型来准确预测蛋白质与配体的结合亲和力，并确保模型在不同蛋白质-配体系统中的泛化能力，也是该数据集面临的重要挑战。最后，数据集的开放性和易用性，如何让更多的研究人员能够方便地使用和访问数据，也是一个需要解决的问题。

常用场景

经典使用场景

MISATO数据集在基于结构的药物发现领域中具有经典应用场景，主要用于训练和验证蛋白质-配体复合物的结合亲和力预测模型。通过提供大规模的分子动力学（MD）和量子力学（QM）数据，该数据集支持研究人员构建高精度的AI模型，以预测配体分子与蛋白质的相互作用。此外，MISATO还提供了PyTorch数据加载器和预训练模型，便于研究人员快速上手并应用于药物发现中的结构预测任务。

衍生相关工作

MISATO数据集的发布催生了一系列相关的经典工作，特别是在结合亲和力预测和蛋白质-配体相互作用建模方面。许多研究团队基于MISATO数据集开发了新的AI模型，如结合亲和力预测模型和蛋白质动力学适应性模型。这些模型不仅提升了药物发现的效率，还为结构生物学和计算化学领域提供了新的研究工具和方法。

数据集最近研究