ibm/otter_stitch

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ibm/otter_stitch

下载链接

链接失效反馈

官方服务：

资源简介：

STITCH（搜索交互化学物质工具）是一个包含已知和预测的化学物质与蛋白质之间相互作用的数据库。化学物质由SMILES字符串表示，蛋白质序列来自STRING数据库。这些相互作用通过计算预测、生物体之间的知识转移以及其他（主要）数据库的聚合相互作用获得。为了多模态知识图（MKG）的整理，只筛选了置信度最高的相互作用，即置信度高于0.9的相互作用。这导致了10,717,791个三元组，涉及17,572种不同的化学物质和1,886,496种不同的蛋白质。此外，图被分割成5个大致相同大小的子图，并在每个子图上顺序训练GNN模型，通过使用前一个子图训练的模型进行升级。

提供机构：

ibm

原始信息汇总

Otter STITCH 数据集概述

数据集描述

名称: Otter STITCH
类型: 化学物质与蛋白质相互作用数据库
内容: 包含由SMILES字符串表示的化学物质与来自STRING数据库的蛋白质序列之间的已知和预测相互作用。这些相互作用来源于计算预测、跨物种知识转移和其他主要数据库的聚合。
筛选标准: 仅包含置信度高于0.9的相互作用，总计10,717,791个三元组，涉及17,572种不同化学物质和1,886,496种不同蛋白质。
数据分割: 被分割成5个大致相同大小的子图，用于顺序训练图神经网络（GNN）。

数据集来源

原始数据集: STITCH 5
引用: Damian Szklarczyk, Alberto Santos, Christian von Mering, Lars Juhl Jensen, Peer Bork, and Michael Kuhn. Stitch 5: augmenting protein-chemical interaction networks with tissue and affinity data. Nucleic acids research, 44(D1):D380–D384, 2016. doi: doi.org/10.1093/nar/gkv1277.

获取更多信息

GitHub仓库: IBM/otter-knowledge
相关论文: arXiv:2306.12802

许可证

类型: MIT

联系方式

问题与评论: GitHub Repo

相关模型

搜集汇总

数据集介绍

构建方式

在化学与蛋白质相互作用领域，ibm/otter_stitch数据集的构建采取了严谨的方法。该数据集整合了已知及预测的化学物质与蛋白质序列间的相互作用，这些化学物质以SMILES字符串表示，蛋白质序列则来源于STRING数据库。通过计算预测、生物体间知识转移以及从其他（一级）数据库汇聚的相互作用，经过筛选，仅保留置信度高于0.9的交互，形成了包含10,717,791个三元组的数据集，涉及17,572种不同的化学物质和1,886,496种不同的蛋白质。数据集进一步被划分为五个大小大致相同的子图，每个子图依次用于训练图神经网络（GNN），以不断提升模型性能。

特点

ibm/otter_stitch数据集显著的特点在于其高质量的交互数据与先进的模型训练策略。数据集通过严格筛选高置信度的化学-蛋白质相互作用，确保了数据的可靠性和可用性。此外，采用分块训练GNN的方法，不仅提升了模型的泛化能力，也使得数据集在多模态知识图谱构建中发挥着重要作用。该数据集涵盖了广泛的化学物质和蛋白质，为研究者提供了深入探索化学-蛋白质相互作用网络的宝贵资源。

使用方法

使用ibm/otter_stitch数据集，研究者可以便捷地开展化学与蛋白质相互作用的预测与分析。数据集的MIT许可协议保障了使用的灵活性。用户可以通过访问GitHub仓库获取数据集和相关资源，同时也可以参考发表的论文以获得更深入的理解。此外，基于该数据集，IBM已经训练了多种模型，如otter_stitch_classifier、otter_stitch_distmult和otter_stitch_transe，这些模型可供用户直接使用，以加速研究进程。

背景与挑战

背景概述

在生物信息学领域，化学物质与蛋白质之间的相互作用研究是揭示生命现象的关键环节。STITCH (Search Tool for Interacting Chemicals) 数据库便是致力于构建此类交互网络的宝贵资源，其通过整合计算预测、生物体间的知识转移以及从其他数据库汇聚的交互数据，形成了庞大的化学-蛋白质相互作用网络。IBM的Otter STITCH数据集，基于STITCH数据库，筛选出置信度最高的交互数据，构建了包含千万级三元的知识图谱，为多模态知识图谱的编纂提供了重要支撑。该数据集由Damian Szklarczyk等人在2016年发表，并持续在相关研究中发挥着重要作用。

当前挑战

尽管Otter STITCH数据集为化学-蛋白质交互研究提供了丰富的数据资源，但在构建和应用过程中仍面临诸多挑战。首先，如何精确识别并整合不同来源的数据，确保数据的质量和一致性，是一大挑战。其次，数据集的庞大规模带来了存储和计算上的挑战，尤其是在图神经网络训练时，如何高效处理和升级模型，以实现最佳的学习效果，亦是当前研究的热点问题。此外，如何将此数据集更有效地应用于药物发现和疾病机理研究，仍是科研人员面临的挑战之一。

常用场景

经典使用场景

在化学与生物信息学的交叉领域，ibm/otter_stitch数据集成为研究蛋白质与化学物质相互作用的宝贵资源。该数据集的经典使用场景在于，科研人员可通过其提供的SMILES字符串表示的化学物质与STRING数据库中蛋白质序列之间的互动信息，进行生物分子网络的分析与构建，从而深入探索药物设计与疾病机制。

衍生相关工作

基于ibm/otter_stitch数据集，研究者们已经衍生出了一系列相关的工作，包括但不限于使用图神经网络（GNN）对数据集进行深入分析，以及开发出了多种预训练模型如otter_stitch_classifier、otter_stitch_distmult和otter_stitch_transe，这些模型进一步推动了生物信息学与计算生物学领域的研究进展。

数据集最近研究