大型药物靶点相互作用数据集

Name: 大型药物靶点相互作用数据集
Creator: IBM研究院 - 以色列
Published: 2024-01-31 01:06:25
License: 暂无描述

arXiv2024-01-31 更新2024-06-21 收录

下载链接：

https://github.com/BiomedSciAI/fuse-drug/tree/main/fusedrug_examples/interaction/drug_target/affinity_prediction/PLM_DTI

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由IBM研究院 - 以色列创建，名为大型药物靶点相互作用数据集，包含87211360条数据。数据集整合了来自PubChem、BindingDB和ChEMBL等多个公共源的数据，通过标准化和高效的数据表示方法，确保数据的一致性和可用性。创建过程中，数据经过清洗和去重，确保质量和准确性。该数据集主要应用于药物发现和设计领域，旨在通过机器学习模型预测药物与靶点的相互作用，加速药物研发过程。

This dataset was developed by IBM Research - Israel, named the Large-scale Drug-Target Interaction Dataset, and contains 87,211,360 data entries. It integrates data from multiple public sources including PubChem, BindingDB and ChEMBL, and ensures data consistency and availability through standardization and efficient data representation methods. During its curation, the data was cleaned and deduplicated to guarantee its quality and accuracy. This dataset is primarily applied in the field of drug discovery and design, aiming to predict drug-target interactions via machine learning models and accelerate the drug development process.

提供机构：

IBM研究院 - 以色列

创建时间：

2024-01-31

搜集汇总

数据集介绍

构建方式

在药物发现领域，生物活性数据的标准化整合对推动计算模型发展至关重要。本数据集通过系统化流程整合了PubChem、BindingDB和ChEMBL三大公共数据库的资源，采用去重清洗与统一表征方法，构建了包含超过8700万药物靶点相互作用样本的大规模资源。数据以配体-靶点对为核心，通过三个关联的TSV文件（pairs、ligands、targets）实现高效存储，并区分标准版与原生版以优化数据源间的冗余处理，为后续机器学习任务提供了结构清晰、信息完整的基础。

特点

该数据集以其规模宏大与结构严谨而著称，覆盖了广泛的生物活性类型与测量单位，并细致标注了定性与定量活性信息。数据高度不平衡，非活性样本占据主导，这真实反映了实际药物筛选中的分布特性。同时，数据集支持多种分割策略，包括宽松分割、冷配体分割与冷靶点分割，能够有效评估模型在不同泛化场景下的鲁棒性，为方法比较提供了可靠基准。

使用方法

研究人员可利用该数据集进行药物靶点相互作用的二元分类任务，通过过滤不确定标签并聚焦活性与非活性样本，结合AUROC与AUPR指标评估模型性能。数据集附带了完整的训练、验证与测试分割方案，以及开源代码实现，便于复现基准结果。用户可根据研究需求选择特定分割策略，或进一步探索不同活性类型子集，以推动药物重定位与虚拟筛选等应用的发展。

背景与挑战

背景概述

药物靶点相互作用预测作为计算生物学与药物发现领域的核心研究方向，其发展高度依赖于高质量、大规模生物活性数据的支持。2022年，IBM研究团队发布了大型药物靶点相互作用数据集，旨在整合PubChem、BindingDB和ChEMBL等公共数据源，构建一个标准化、可复现的基准数据集。该数据集通过统一的数据表示格式与多种分割策略，解决了以往研究中数据来源不一致、分割方法不统一导致的模型可比性差等问题，为基于人工智能的药物发现与重定位研究提供了坚实的数据基础，显著推动了数据驱动方法在药物研发中的应用。

当前挑战

在药物靶点相互作用预测领域，核心挑战在于如何从高度不平衡的生物活性数据中准确识别活性化合物与靶点之间的相互作用，同时确保模型对新化合物或新靶点具有良好的泛化能力。数据构建过程中，研究团队面临多重挑战：首先，整合多源异构数据时需处理数据冗余、缺失值与标准化表示问题，例如统一不同来源的生物活性测量单位与标识符；其次，设计合理的训练、验证与测试分割策略，如冷配体分割与冷靶点分割，以模拟真实药物发现场景中的泛化需求；此外，数据高度不平衡，活性样本仅占约1%，对模型训练与评估指标选择提出了严峻考验。

常用场景

经典使用场景

在计算生物学与药物发现领域，大型药物靶点相互作用数据集为基于机器学习的药物靶点相互作用预测提供了标准化基准。该数据集整合了PubChem、BindingDB和ChEMBL等多个公共生物活性数据源，通过统一的表示格式和多种分割策略（如宽松分割、冷配体分割和冷靶点分割），支持模型在预测新化合物或新靶点时的泛化能力评估。研究者常利用该数据集训练深度神经网络模型，如PLM-DTI，以模拟药物与蛋白质靶点之间的结合亲和力，从而加速虚拟筛选过程。

实际应用

在实际应用中，该数据集被广泛用于制药工业的早期药物研发阶段。通过高效预测化合物与靶点蛋白的相互作用，它能够大幅降低实验验证的成本与时间，辅助研究人员从海量化合物库中优先筛选出潜在候选药物。例如，在药物重定位项目中，利用该数据集训练的模型可快速识别现有药物对新靶点的活性，为治疗新适应症提供线索。此外，数据集支持的高通量虚拟筛选平台，已成为加速新药发现流程的关键工具。

衍生相关工作

该数据集衍生了一系列经典研究工作，尤其在深度学习与计算化学交叉领域。基于其标准化基准，研究者开发了如PLM-DTI等模型，该模型融合预训练蛋白质语言模型与化合物指纹，提升了相互作用预测的准确性。后续工作进一步探索了更深层网络架构在大规模数据上的优势，证明了数据规模对模型性能的积极影响。同时，数据集也促进了Therapeutics Data Commons等平台的发展，为药物发现任务提供了更丰富的机器学习数据集与评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集