SIU

github2024-06-13 更新2024-06-22 收录

下载链接：

https://github.com/bowen-gao/SIU

下载链接

链接失效反馈

官方服务：

资源简介：

SIU是一个百万规模的小分子-蛋白质相互作用数据集，用于无偏见的生物活性预测。数据集包含了多种文件格式，如lmdb和pickle，用于训练不同的模型，如GNN和CNN-3D。

SIU is a million-scale small molecule-protein interaction dataset tailored for unbiased bioactivity prediction. It provides multiple file formats including LMDB and Pickle, which can be used to train various models such as GNN and CNN-3D.

创建时间：

2024-06-11

原始信息汇总

SIU 数据集概述

数据集下载

数据集可从 huggingface 数据集仓库下载。下载后需解压所有文件。

数据文件

gnn_cnn_data.zip: 用于训练 GNN 和 CNN-3D 模型的数据集。
split_60.zip: 用于训练 Uni-Mol 或 ProFSA 模型的 SIU 0.6 版本数据集，包含 train.lmdb、valid.lmdb 和 test.lmdb。
split_90.zip: 用于训练 Uni-Mol 或 ProFSA 模型的 SIU 0.9 版本数据集，包含 train.lmdb、valid.lmdb 和 test.lmdb。
pretrain_weights.zip: 预训练权重文件，包括 ProFSA 和 Uni-Mol 的预训练模型权重。
final_dic.pkl: 完整数据集文件，以 pickle 格式存储。

数据格式

final_dic.pkl

每个键是一个 UniProt ID。
对应的值是一个字典列表，每个字典包含以下键：
- atoms: 配体中的原子类型。
- coordinates: 配体的不同构象列表。
- pocket_atoms: 口袋中的原子类型。
- pocket_coordinates: 口袋中原子的位置。
- source_data: UniProt ID 和 PDB ID 信息。
- label: 试剂类型和试剂值的字典。
- ik: 配体的 InChI 键。
- smi: 配体的 SMILES 表示。

其他 lmdb 文件

所有训练和测试数据均以 lmdb 格式存储，包含上述相同的键。对于单任务学习，标签是一个浮点值而非字典。

数据读取

提供了 read_data.py 脚本用于从 lmdb 文件和 pickle 文件中读取数据。

模型训练

GNN/CNN-3D 模型训练

数据路径需更改为 atom3d_data/split_60 或 atom3d_data/split_90。
使用 NVIDIA A100 GPU 进行训练。

ProFSA 模型训练

使用预训练权重文件。
数据路径需指向 split_60 或 split_90 目录。
多任务学习时设置 --num-heads 为 5，单任务学习时设置为 1。
使用 4 块 NVIDIA A100 GPU 进行训练。

搜集汇总

数据集介绍

构建方式

SIU数据集的构建基于大规模的结构化小分子-蛋白质相互作用数据，涵盖了百万级的生物活性预测样本。该数据集通过整合多种生物信息学资源，包括UniProt和PDB数据库，确保了数据的多样性和广泛性。具体构建过程中，数据集被分为多个版本，如SIU 0.6和SIU 0.9，每个版本包含训练集、验证集和测试集，并以lmdb格式存储，便于高效的数据读取和处理。此外，数据集还提供了预训练模型权重，如Uni-Mol和ProFSA的预训练权重，进一步支持了深度学习模型的快速部署和优化。

使用方法

使用SIU数据集进行模型训练时，用户首先需要下载并解压数据集文件，然后根据需求选择合适的版本（如SIU 0.6或SIU 0.9）。数据集提供了多种读取方式，包括lmdb文件和pickle文件，用户可以通过提供的脚本进行数据读取。在模型训练方面，数据集支持GNN和CNN-3D模型的训练，用户可以根据提供的训练脚本进行参数调整和模型训练。此外，数据集还提供了预训练模型权重，用户可以直接加载这些权重进行模型微调或直接使用。

背景与挑战

背景概述

SIU数据集，由主要研究人员或机构创建，旨在解决大规模结构小分子-蛋白质相互作用的无偏生物活性预测问题。该数据集的核心研究问题在于通过提供丰富的分子和蛋白质结构信息，推动生物活性预测模型的精确性和泛化能力。SIU数据集的创建标志着在药物发现领域中，对小分子与蛋白质相互作用的理解和预测能力的一次重大飞跃。其影响力不仅体现在数据集的规模上，更在于其对多任务学习和预训练模型的支持，为后续研究提供了坚实的基础。

当前挑战

SIU数据集在构建过程中面临多重挑战。首先，数据集的规模庞大，涉及数百万级的结构小分子-蛋白质相互作用数据，这要求高效的存储和处理技术。其次，数据集的多样性和复杂性使得数据预处理和标准化成为一项艰巨任务。此外，SIU数据集还需应对多任务学习的挑战，确保在不同生物活性预测任务中的模型性能。最后，数据集的更新和维护也是一个持续的挑战，以确保其始终反映最新的科学发现和技术进步。

常用场景

经典使用场景

在药物发现领域，SIU数据集被广泛用于预测小分子与蛋白质之间的相互作用。通过提供详细的原子类型和坐标信息，该数据集支持训练图神经网络（GNN）和三维卷积神经网络（CNN-3D）模型，以实现对生物活性的无偏预测。此外，SIU数据集还用于训练Uni-Mol和ProFSA模型，这些模型在药物筛选和设计中具有重要应用。

解决学术问题

SIU数据集解决了药物发现中的一个关键问题，即如何准确预测小分子与蛋白质之间的相互作用。传统的生物活性预测方法往往依赖于有限的实验数据，而SIU通过提供大规模的结构数据，使得机器学习模型能够更精确地预测生物活性。这不仅提高了药物筛选的效率，还为新药研发提供了强有力的支持。

实际应用

在实际应用中，SIU数据集被用于开发和优化药物筛选算法。制药公司和研究机构利用该数据集训练的模型，可以快速评估潜在药物分子的生物活性，从而加速新药的研发过程。此外，SIU数据集还支持多任务学习，能够同时预测多种生物活性指标，进一步提升了药物设计的精准度和效率。

数据集最近研究