ibm/otter_uniprot_bindingdb

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ibm/otter_uniprot_bindingdb

下载链接

链接失效反馈

官方服务：

资源简介：

Otter UB数据集由来自Uniprot和BindingDB的实体（蛋白质/药物）组成。Uniprot部分包含573,227个来自SwissProt的蛋白质，这些蛋白质具有多种属性，如序列、全名、生物体、蛋白质家族等，并且有38,665条边连接Uniprot ID到ChEMBL和Drugbank ID，以及196,133条Uniprot蛋白质ID之间的相互作用。BindingDB部分包含2,656,221个数据点，涉及120万个化合物和9000个靶标，最终生成了2,232,392个三元组。

提供机构：

ibm

原始信息汇总

Otter UB Dataset Card 概述

数据集组成

Uniprot: 包含573,227个来自SwissProt的蛋白质，具有多种属性，如序列（567,483个）、全名、生物体、蛋白质家族、功能描述、催化活性、途径及其长度。存在38,665个类型为target_of的边，连接Uniprot ID到ChEMBL和Drugbank ID，以及196,133个Uniprot蛋白质ID之间的相互作用者。
BindingDB: 包含2,656,221个数据点，涉及120万种化合物和9,000个目标。为每种药物和蛋白质组合生成一个三元组，最终数据集包含2,232,392个三元组。

数据集来源

Uniprot: 由UniProt Consortium提供，详细信息见Nucleic Acids Research, 51(D1):D523–D531, 2022。
BindingDB: 由Tiqing Liu等人提供，详细信息见Nucleic Acids Research, 35(suppl_1):D198–D201, 2007。

获取更多信息

GitHub仓库: https://github.com/IBM/otter-knowledge
相关论文: https://arxiv.org/abs/2306.12802

许可证

MIT

联系方式

GitHub仓库: https://github.com/IBM/otter-knowledge

搜集汇总

数据集介绍

构建方式

在生物信息学领域，整合多源异构数据对于深化蛋白质与药物相互作用的理解至关重要。Otter UB数据集通过融合UniProt知识库中573,227条经过人工审阅的蛋白质条目，涵盖序列、功能描述及通路等多模态属性，并关联了来自BindingDB的约2,232,392条药物-蛋白质三元组数据。构建过程中，为避免与TDC DTI数据集发生信息泄露，研究者系统剔除了重叠的三元组，确保了数据的独立性与可靠性。这种跨数据库的集成策略，为后续知识图谱构建奠定了坚实基础。

特点

该数据集的核心特征在于其跨模态与多源融合的设计理念。一方面，UniProt部分提供了蛋白质的序列、家族分类及功能注释等结构化知识；另一方面，BindingDB贡献了大规模实验测定的药物-蛋白质结合亲和力数据，并以三元组形式呈现。数据集通过精心设计的实体链接，将蛋白质与药物实体无缝对接，形成了覆盖生物学特性与化学相互作用的高质量知识网络。这种融合不仅扩展了数据的维度，也为多任务学习与跨领域推理提供了丰富语义。

使用方法

在药物发现与生物信息学研究中，该数据集可作为训练多模态知识图谱嵌入模型的优质资源。使用者可依据蛋白质序列、功能注释及药物-蛋白质三元组，构建异构图神经网络，以预测潜在的药物靶点或挖掘蛋白质功能关联。具体操作时，建议遵循数据集的原始划分，利用提供的实体与关系文件进行模型训练与评估。同时，结合GitHub仓库中的代码示例，能够更高效地实现数据加载与预处理，推动药物重定位与相互作用预测的前沿探索。

背景与挑战

背景概述

在生物信息学与药物发现领域，蛋白质与药物分子间相互作用的研究是推动精准医疗与创新疗法发展的核心。由IBM研究团队于2023年构建的Otter UB数据集，整合了UniProt知识库中经过人工审阅的蛋白质数据与BindingDB中实验测定的蛋白-配体结合亲和力数据，旨在构建一个多模态、大规模的知识图谱，以支持药物-靶点相互作用（DTI）的预测与推理。该数据集通过融合序列、功能描述、化合物结构等多源信息，为计算生物学提供了丰富的语义关联基础，显著增强了模型在跨模态知识表示与链接预测任务中的能力，对加速药物重定位与靶点识别研究具有重要影响力。

当前挑战

Otter UB数据集致力于解决药物-靶点相互作用预测中的关键挑战，即如何从异构、高维的生物医学数据中准确推断蛋白质与药物间的复杂关系。构建过程中的主要困难包括数据整合的复杂性：需协调UniProt中蛋白质的序列、功能注释等多模态属性与BindingDB中大量实验性结合数据之间的语义对齐，同时确保与现有基准数据集（如TDC DTI）无信息泄露。此外，数据规模庞大且稀疏性显著，涉及数百万实体与关系，对知识图谱的构建、去噪与标准化提出了极高要求，需精细处理实体链接与冗余消除，以维持数据的可靠性与一致性。

常用场景

经典使用场景

在生物信息学与药物发现领域，Otter UB数据集通过整合UniProt的蛋白质注释与BindingDB的配体结合数据，为多模态知识图谱构建提供了核心资源。其经典应用场景在于支持药物-靶点相互作用预测模型的训练与评估，研究者能够利用该数据集中的蛋白质序列、功能描述及化合物信息，开发先进的机器学习算法，以识别潜在的药物候选分子与蛋白质靶点之间的结合关系，从而加速药物筛选流程。

解决学术问题

该数据集有效解决了药物发现中数据分散与模态异构的学术挑战。通过融合蛋白质的序列、功能和化合物结合信息，它支持跨模态表示学习与关系推理研究，助力于揭示药物-靶点相互作用的复杂机制。其意义在于提供了一个大规模、高质量且无数据泄露的基准，推动了计算生物学中预测模型的标准化与可复现性，对理解蛋白质功能与药物设计产生了深远影响。

衍生相关工作

基于Otter UB数据集，已衍生出多项经典研究工作，包括多模态图神经网络在药物-靶点相互作用预测中的应用，以及知识图谱嵌入方法在生物实体关系推理中的优化。这些工作不仅提升了预测精度，还扩展了数据集在蛋白质功能注释和药物副作用预测等任务中的效用，进一步丰富了生物医学人工智能的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集