MISATO|药物发现数据集|机器学习数据集
收藏MISATO数据集概述
数据集描述
MISATO是一个用于结构基础药物发现的蛋白质-配体复合物的机器学习数据集。该数据集包含以下主要组成部分:
- Quantum Mechanics (QM): 包含19443个经过精选和优化的配体。
- Molecular Dynamics (MD): 包含16972个模拟的蛋白质-配体结构,每个结构模拟时间为10纳秒。
- AI模型: 提供基于PyTorch的数据加载器和3个基准模型,用于MD和QM以及结合亲和力预测。
数据集内容
数据集提供了多种数据文件,包括:
- MD: 133 GiB
- QM: 0.3 GiB
- 电子密度: 6 GiB
- MD重启和拓扑文件: 55 GiB
数据集使用
用户可以通过以下方式访问和使用数据集:
- 通过提供的笔记本
src/getting_started.ipynb
了解数据集结构和如何访问每个分子的属性。 - 加载PyTorch数据加载器和PyTorch Lightning数据模块。
数据集下载
用户可以从Zenodo下载完整的数据集,具体链接如下:
数据集结构
数据集的目录结构如下:
├── data <- 项目数据
│ ├── MD
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试分割
│ └── QM
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试分割
├── src <- 源代码
│ ├── data
│ │ ├── components <- 数据集和转换
│ │ ├── md_datamodule.py <- MD Lightning数据模块
│ │ ├── qm_datamodule.py <- QM Lightning数据模块
│ │ │
│ │ └── processing <- 预处理、推理和转换脚本
│ ├── getting_started.ipynb <- 如何加载数据和交互的笔记本
│ └── inference.ipynb <- 运行推理的笔记本
├── docker <- Dockerfile和执行脚本
└── README.md
安装和环境设置
推荐使用Docker或conda环境进行安装和配置。具体安装步骤包括创建特定环境、安装必要的库和工具,以及配置PyTorch和PyTorch Lightning。
引用信息
如需引用此数据集,请使用以下BibTeX条目:
bibtex @article{siebenmorgen2024misato, title={MISATO: machine learning dataset of protein--ligand complexes for structure-based drug discovery}, author={Siebenmorgen, Till and Menezes, Filipe and Benassou, Sabrina and Merdivan, Erinc and Didi, Kieran and Mour{~a}o, Andr{e} Santos Dias and Kitel, Rados{l}aw and Li{`o}, Pietro and Kesselheim, Stefan and Piraud, Marie and others}, journal={Nature Computational Science}, pages={1--12}, year={2024}, publisher={Nature Publishing Group US New York} }

CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
Global Burden of Disease Study (GBD)
全球疾病负担研究(GBD)数据集提供了全球范围内疾病、伤害和风险因素的详细统计数据。该数据集包括了各种健康指标,如死亡率、发病率、伤残调整生命年(DALYs)等,涵盖了多个国家和地区。数据集还提供了不同年龄组、性别和时间段的详细分析。
ghdx.healthdata.org 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录