Otter-KNOWLEDGE

Name: Otter-KNOWLEDGE
Creator: IBM Research Europe Dublin Lab, Ireland and Zurich Lab, Switzerland
Published: 2023-10-20 02:15:57
License: 暂无描述

arXiv2023-10-20 更新2024-06-21 收录

下载链接：

https://github.com/IBM/otter-knowledge

下载链接

链接失效反馈

官方服务：

资源简介：

Otter-KNOWLEDGE是一个综合性的多模态知识图谱数据集，由IBM研究团队创建，整合了来自七个公共数据源的信息。该数据集包含超过3000万个三元组，主要用于通过图神经网络增强蛋白质和分子嵌入，以提高药物发现中的预测任务，特别是药物-靶标结合亲和力的预测。此外，数据集还附带了一些预训练模型和源代码，以支持标准基准任务的运行，从而促进该领域的进一步研究。

Otter-KNOWLEDGE is a comprehensive multimodal knowledge graph dataset developed by IBM Research, which integrates information from seven public data sources. This dataset contains over 30 million triples, and is primarily used to enhance protein and molecular embeddings via graph neural networks to improve predictive tasks in drug discovery, particularly the prediction of drug-target binding affinity. Additionally, the dataset is accompanied by several pre-trained models and source code to support the execution of standard benchmark tasks, thereby facilitating further research in this field.

提供机构：

IBM Research Europe Dublin Lab, Ireland and Zurich Lab, Switzerland

创建时间：

2023-06-22

搜集汇总

数据集介绍

构建方式

在药物发现领域，多模态知识图谱的构建对于整合异构生物医学数据至关重要。Otter-KNOWLEDGE数据集通过自动化框架，从UniProt、BindingDB、ChEMBL、DUDe、PrimeKG和STITCH等七个公开数据源中提取并融合数据，构建了包含超过3000万三元组的多模态知识图谱。该框架采用声明式JSON模式文件，支持从文本分隔文件、JSON和专有数据源中提取信息，并自动合并具有相同唯一标识符的实体，同时利用sameAs关系处理部分重叠数据源中的实体对齐问题。图谱构建过程确保三元组的唯一性，并支持通过图建模语言或RDF序列化格式进行存储，实现了对蛋白质、药物、疾病等实体及其多模态属性的高效集成。

特点

Otter-KNOWLEDGE数据集的核心特点在于其多模态性与异构知识融合能力。图谱节点涵盖蛋白质序列、药物SMILES、文本描述、数值属性和分类实体等多种模态，通过数据属性和对象属性连接实体与属性节点，形成丰富的语义网络。数据集特别强调对药物-靶标结合亲和力预测任务的优化，通过图神经网络增强初始嵌入表示，融合了ESM-1b模型提取的蛋白质序列嵌入和Morgan指纹或MolFormer生成的药物SMILES嵌入。此外，数据集采用集成学习方法，允许在不合并不同知识图谱的情况下并行训练多个GNN模型，有效解决了数据源模式对齐的复杂性，并提升了模型在未见实体上的泛化性能。

使用方法

Otter-KNOWLEDGE数据集的使用主要围绕药物-靶标相互作用预测任务展开。研究人员可通过提供的预训练GNN模型获取蛋白质和药物的增强嵌入表示，这些模型基于TransE、DistMult和二元分类器等不同目标函数训练而成。使用流程包括：首先利用框架计算初始多模态嵌入，随后通过归纳式关系图卷积网络进行知识增强，最终在下游任务中微调。数据集支持标准评估框架，如TDC基准中的DTI DG、DAVIS和KIBA数据集，用户可通过集成多个预训练模型提升预测性能。此外，开源代码库提供了推理API，允许输入新的蛋白质序列或SMILES字符串，获取初始嵌入与GNN增强嵌入，便于快速应用于结合亲和力预测等药物发现场景。

背景与挑战

背景概述

在人工智能驱动的药物发现领域，如何构建蛋白质和小分子的高效表征一直是核心研究问题。Otter-KNOWLEDGE数据集由IBM Research Europe的研究团队于2023年创建，旨在通过整合来自七个公共数据源的多模态知识图谱，丰富药物和蛋白质的表示学习。该数据集的核心研究问题聚焦于如何利用包含文本、序列、SMILES字符串、数值和分类属性等多种模态的知识图谱，提升药物-靶标结合亲和力预测的准确性。通过融合超过3000万条三元组，该工作不仅推动了多模态知识图谱表示学习的前沿，也为治疗数据共享（TDC）基准测试设立了新的性能标杆，显著影响了计算药物发现领域的研究范式。

当前挑战

Otter-KNOWLEDGE数据集致力于解决药物-靶标相互作用预测这一复杂领域问题，其核心挑战在于如何有效整合异构、多源且模态各异的知识图谱以提升预测精度。在构建过程中，研究团队面临多重困难：首先，自动对齐不同数据源的结构极具复杂性，例如STITCH知识图谱中的“相互作用”关系与UniProt中的“靶标”关系语义相似但难以等价确认；其次，将大规模知识图谱合并为单一图结构需要巨大的计算资源，这对内存与处理效率提出了严峻考验；此外，数据集中存在潜在噪声链接，可能影响下游任务的泛化性能。这些挑战共同凸显了在多源异构环境下进行知识融合与表示学习的固有难度。

常用场景

经典使用场景

在药物发现领域，Otter-KNOWLEDGE数据集通过整合多模态知识图谱，为药物-靶点结合亲和力预测提供了经典应用场景。该数据集融合了蛋白质序列、分子SMILES、文本描述及数值属性等多种模态信息，利用图神经网络进行表示学习，显著提升了预测模型的泛化能力与准确性。其核心在于将异构知识源统一编码，为复杂生物医学关系的建模奠定了数据基础。

衍生相关工作

Otter-KNOWLEDGE数据集衍生了一系列经典研究工作，例如基于知识增强的蛋白质语言模型（如OntoProtein、KeAP）的改进，以及图神经网络在异质生物图谱中的应用拓展。这些工作进一步探索了多模态融合、跨任务泛化与动态图谱学习等方向，推动了药物发现领域表示学习技术的演进，并为后续大规模生物医学知识图谱构建提供了参考范式。

数据集最近研究