SIU

Name: SIU
Creator: 清华大学人工智能产业研究院
Published: 2024-06-13 17:49:58
License: 暂无描述

arXiv2024-06-13 更新2024-06-17 收录

下载链接：

https://huggingface.co/datasets/bgao95/SIU

下载链接

链接失效反馈

官方服务：

资源简介：

SIU数据集是由清华大学人工智能产业研究院开发的一个大规模结构化小分子-蛋白质相互作用数据集，旨在无偏见地预测生物活性。该数据集包含超过534万个结合结构，每个结构都附有严格的生物活性标签，涵盖了广泛的蛋白质靶点和多种小分子，包括活性与非活性化合物。SIU数据集通过多软件对接和共识过滤方法确保了小分子-蛋白质复合物的精确建模，其生物活性标签根据测定类型精心整理。该数据集的应用领域主要集中在药物发现和优化，旨在解决现有数据集在规模和组织上的不足，提高生物活性预测的准确性和全面性。

The SIU Dataset is a large-scale structured small molecule-protein interaction dataset developed by the Institute for Artificial Intelligence Industry Research of Tsinghua University, targeting unbiased biological activity prediction. It contains over 5.34 million binding structures, each paired with rigorous biological activity labels, covering a broad spectrum of protein targets and diverse small molecules including both active and inactive compounds. The SIU Dataset ensures accurate modeling of small molecule-protein complexes via multi-software docking and consensus filtering approaches, with its biological activity labels meticulously curated according to assay types. The primary applications of this dataset focus on drug discovery and optimization, aiming to resolve the shortcomings of existing datasets in terms of scale and organization, and enhance the accuracy and comprehensiveness of biological activity prediction.

提供机构：

清华大学人工智能产业研究院

创建时间：

2024-06-13

搜集汇总

数据集介绍

构建方式

在药物发现领域，高质量三维结构数据的匮乏长期制约着生物活性预测模型的精度。SIU数据集的构建旨在突破这一瓶颈，其核心流程整合了严谨的数据清洗与多软件分子对接技术。研究团队从ChEMBL和BindingDB等权威生物活性数据库中提取非结构数据，依据严格的分子量、原子组成等标准筛选药物样小分子，并利用UniProt ID实现蛋白质靶标的标准化映射。蛋白质结构则从PDB数据库获取，通过化学与生物学知识过滤非特异性配体，并采用FLAPP等方法对结合口袋进行去重。结构数据的生成采用了多软件分子对接策略，结合Glide、GOLD等不同算法，并实施严格的共识过滤：仅保留至少两种软件结果一致的对接构象，同时依据均方根偏差（RMSD）设定阈值以确保构象质量。最终，数据集按PDB ID和生物活性测定类型进行系统化组织，形成了超过一百万个标注了真实生物活性标签的小分子-蛋白质相互作用结构。

使用方法

SIU数据集的设计充分考虑了其在人工智能驱动药物发现中的实际应用场景，主要服务于无偏生物活性预测任务。使用者可依据研究目标，灵活进行数据划分，例如利用其提供的基于0.6或0.9序列相似性阈值划分的版本，以确保训练集与测试集在蛋白质层面的独立性。在模型训练与评估时，应遵循数据集‘按PDB ID分组’和‘按测定类型分组’的核心原则。这意味着，在评估模型性能时，除了计算全局相关性指标（如Pearson、Spearman相关系数），更应关注在同一蛋白质口袋（相同PDB ID）内、针对不同小分子的生物活性预测相关性（即分组后的Pearson*和Spearman*），此举能更真实地反映模型区分靶向同一口袋不同分子的能力，这是药物发现中的关键。数据集支持多任务学习与单任务学习范式，研究人员可训练模型同时预测多种生物活性，也可针对特定测定类型（如Ki）进行专项建模。通过利用SIU提供的大规模、高质量且组织良好的结构-活性数据，能够显著提升模型对于小分子-蛋白质相互作用的理解与预测精度。

背景与挑战

背景概述

在人工智能驱动的药物发现领域，小分子与蛋白质靶点的相互作用研究是开发新型疗法的基石。生物活性预测的准确性直接关系到药物的疗效与安全性，然而长期以来，该领域受限于高质量三维结构数据的稀缺性。由清华大学智能产业研究院与北京大学等机构的研究团队于2024年构建的SIU数据集，正是为了应对这一核心挑战而生。该数据集汇集了超过一百万个经过严谨计算建模的小分子-蛋白质复合物结构，并系统标注了来自湿实验的真实生物活性标签，旨在为无偏见的生物活性预测提供大规模、高质量的结构基础，显著推动了计算药物发现领域从传统配体相似性依赖向基于三维互补性深度建模的范式转变。

当前挑战

SIU数据集致力于解决的核心领域挑战在于实现无偏见的生物活性预测。传统方法常因混合不同生物活性测定类型（如Kd、Ki、IC50、EC50）或忽略不同蛋白质口袋间的活性分布差异，导致模型评估存在偏差，难以准确比较同一口袋内不同分子的活性差异。在构建过程中，研究团队面临多重挑战：首先，需要从ChEMBL、BindingDB等异构数据库中整合、清洗并标准化海量非结构化的生物活性数据，确保分子与靶点信息的精确匹配；其次，开发可扩展的高保真结构建模流程，通过多软件分子对接与共识过滤机制，在保证数百万个复合物构象预测准确性的同时，平衡计算资源与数据规模；最后，需设计严谨的数据组织与划分策略，实现按蛋白质口袋与测定类型的精细化管理，以支撑具有生物学意义的模型训练与评估。

常用场景

经典使用场景

在药物发现领域，准确预测小分子与蛋白质的相互作用生物活性是优化候选药物疗效与安全性的核心环节。SIU数据集凭借其百万级别的结构数据与系统化的生物活性标注，为无偏生物活性预测提供了经典应用场景。研究者可借助该数据集，在恒定蛋白质口袋环境下，对比不同小分子的三维构象与生物活性值，从而深入探究分子结构细微变化对结合亲和力的影响，推动基于结构的药物设计迈向更高精度。

解决学术问题

传统结构数据集常受限于规模较小、生物活性标签混杂或缺乏系统组织，难以支撑无偏的生物活性预测研究。SIU数据集通过整合超过百万条经过多软件对接验证的复合物结构，并严格按PDB ID与实验类型分类标注，有效解决了上述学术瓶颈。该数据集使研究者能够区分不同实验类型（如Kd、Ki、IC50、EC50）的生物活性差异，避免因混合使用而引入偏差，为开发更稳健、可解释的预测模型奠定了坚实基础。

实际应用

SIU数据集在制药工业与学术研究中具有广泛的实际应用价值。药物研发团队可利用其大规模、多样化的蛋白质-小分子对，加速虚拟筛选流程，识别具有潜在治疗活性的先导化合物。同时，数据集中包含的大量低活性或非活性分子为模型提供了关键的负样本，有助于降低实验筛选的假阳性率。此外，该数据集支持针对特定蛋白家族（如GPCRs、激酶）的定向研究，为个性化药物开发与靶点机制探索提供结构依据。

数据集最近研究