MISATO|药物发现数据集|机器学习数据集
收藏MISATO数据集概述
数据集描述
MISATO是一个用于结构基础药物发现的蛋白质-配体复合物的机器学习数据集。该数据集包含以下主要组成部分:
- Quantum Mechanics (QM): 包含19443个经过精选和优化的配体。
- Molecular Dynamics (MD): 包含16972个模拟的蛋白质-配体结构,每个结构模拟时间为10纳秒。
- AI模型: 提供基于PyTorch的数据加载器和3个基准模型,用于MD和QM以及结合亲和力预测。
数据集内容
数据集提供了多种数据文件,包括:
- MD: 133 GiB
- QM: 0.3 GiB
- 电子密度: 6 GiB
- MD重启和拓扑文件: 55 GiB
数据集使用
用户可以通过以下方式访问和使用数据集:
- 通过提供的笔记本
src/getting_started.ipynb
了解数据集结构和如何访问每个分子的属性。 - 加载PyTorch数据加载器和PyTorch Lightning数据模块。
数据集下载
用户可以从Zenodo下载完整的数据集,具体链接如下:
数据集结构
数据集的目录结构如下:
├── data <- 项目数据
│ ├── MD
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试分割
│ └── QM
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试分割
├── src <- 源代码
│ ├── data
│ │ ├── components <- 数据集和转换
│ │ ├── md_datamodule.py <- MD Lightning数据模块
│ │ ├── qm_datamodule.py <- QM Lightning数据模块
│ │ │
│ │ └── processing <- 预处理、推理和转换脚本
│ ├── getting_started.ipynb <- 如何加载数据和交互的笔记本
│ └── inference.ipynb <- 运行推理的笔记本
├── docker <- Dockerfile和执行脚本
└── README.md
安装和环境设置
推荐使用Docker或conda环境进行安装和配置。具体安装步骤包括创建特定环境、安装必要的库和工具,以及配置PyTorch和PyTorch Lightning。
引用信息
如需引用此数据集,请使用以下BibTeX条目:
bibtex @article{siebenmorgen2024misato, title={MISATO: machine learning dataset of protein--ligand complexes for structure-based drug discovery}, author={Siebenmorgen, Till and Menezes, Filipe and Benassou, Sabrina and Merdivan, Erinc and Didi, Kieran and Mour{~a}o, Andr{e} Santos Dias and Kitel, Rados{l}aw and Li{`o}, Pietro and Kesselheim, Stefan and Piraud, Marie and others}, journal={Nature Computational Science}, pages={1--12}, year={2024}, publisher={Nature Publishing Group US New York} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录