five

ibm/otter_stitch

收藏
Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm/otter_stitch
下载链接
链接失效反馈
官方服务:
资源简介:
STITCH(搜索交互化学物质工具)是一个包含已知和预测的化学物质与蛋白质之间相互作用的数据库。化学物质由SMILES字符串表示,蛋白质序列来自STRING数据库。这些相互作用通过计算预测、生物体之间的知识转移以及其他(主要)数据库的聚合相互作用获得。为了多模态知识图(MKG)的整理,只筛选了置信度最高的相互作用,即置信度高于0.9的相互作用。这导致了10,717,791个三元组,涉及17,572种不同的化学物质和1,886,496种不同的蛋白质。此外,图被分割成5个大致相同大小的子图,并在每个子图上顺序训练GNN模型,通过使用前一个子图训练的模型进行升级。

STITCH(搜索交互化学物质工具)是一个包含已知和预测的化学物质与蛋白质之间相互作用的数据库。化学物质由SMILES字符串表示,蛋白质序列来自STRING数据库。这些相互作用通过计算预测、生物体之间的知识转移以及其他(主要)数据库的聚合相互作用获得。为了多模态知识图(MKG)的整理,只筛选了置信度最高的相互作用,即置信度高于0.9的相互作用。这导致了10,717,791个三元组,涉及17,572种不同的化学物质和1,886,496种不同的蛋白质。此外,图被分割成5个大致相同大小的子图,并在每个子图上顺序训练GNN模型,通过使用前一个子图训练的模型进行升级。
提供机构:
ibm
原始信息汇总

Otter STITCH 数据集概述

数据集描述

  • 名称: Otter STITCH
  • 类型: 化学物质与蛋白质相互作用数据库
  • 内容: 包含由SMILES字符串表示的化学物质与来自STRING数据库的蛋白质序列之间的已知和预测相互作用。这些相互作用来源于计算预测、跨物种知识转移和其他主要数据库的聚合。
  • 筛选标准: 仅包含置信度高于0.9的相互作用,总计10,717,791个三元组,涉及17,572种不同化学物质和1,886,496种不同蛋白质。
  • 数据分割: 被分割成5个大致相同大小的子图,用于顺序训练图神经网络(GNN)。

数据集来源

  • 原始数据集: STITCH 5
  • 引用: Damian Szklarczyk, Alberto Santos, Christian von Mering, Lars Juhl Jensen, Peer Bork, and Michael Kuhn. Stitch 5: augmenting protein-chemical interaction networks with tissue and affinity data. Nucleic acids research, 44(D1):D380–D384, 2016. doi: doi.org/10.1093/nar/gkv1277.

获取更多信息

许可证

  • 类型: MIT

联系方式

相关模型

搜集汇总
数据集介绍
main_image_url
构建方式
在化学与蛋白质相互作用领域,ibm/otter_stitch数据集的构建采取了严谨的方法。该数据集整合了已知及预测的化学物质与蛋白质序列间的相互作用,这些化学物质以SMILES字符串表示,蛋白质序列则来源于STRING数据库。通过计算预测、生物体间知识转移以及从其他(一级)数据库汇聚的相互作用,经过筛选,仅保留置信度高于0.9的交互,形成了包含10,717,791个三元组的数据集,涉及17,572种不同的化学物质和1,886,496种不同的蛋白质。数据集进一步被划分为五个大小大致相同的子图,每个子图依次用于训练图神经网络(GNN),以不断提升模型性能。
特点
ibm/otter_stitch数据集显著的特点在于其高质量的交互数据与先进的模型训练策略。数据集通过严格筛选高置信度的化学-蛋白质相互作用,确保了数据的可靠性和可用性。此外,采用分块训练GNN的方法,不仅提升了模型的泛化能力,也使得数据集在多模态知识图谱构建中发挥着重要作用。该数据集涵盖了广泛的化学物质和蛋白质,为研究者提供了深入探索化学-蛋白质相互作用网络的宝贵资源。
使用方法
使用ibm/otter_stitch数据集,研究者可以便捷地开展化学与蛋白质相互作用的预测与分析。数据集的MIT许可协议保障了使用的灵活性。用户可以通过访问GitHub仓库获取数据集和相关资源,同时也可以参考发表的论文以获得更深入的理解。此外,基于该数据集,IBM已经训练了多种模型,如otter_stitch_classifier、otter_stitch_distmult和otter_stitch_transe,这些模型可供用户直接使用,以加速研究进程。
背景与挑战
背景概述
在生物信息学领域,化学物质与蛋白质之间的相互作用研究是揭示生命现象的关键环节。STITCH (Search Tool for Interacting Chemicals) 数据库便是致力于构建此类交互网络的宝贵资源,其通过整合计算预测、生物体间的知识转移以及从其他数据库汇聚的交互数据,形成了庞大的化学-蛋白质相互作用网络。IBM的Otter STITCH数据集,基于STITCH数据库,筛选出置信度最高的交互数据,构建了包含千万级三元的知识图谱,为多模态知识图谱的编纂提供了重要支撑。该数据集由Damian Szklarczyk等人在2016年发表,并持续在相关研究中发挥着重要作用。
当前挑战
尽管Otter STITCH数据集为化学-蛋白质交互研究提供了丰富的数据资源,但在构建和应用过程中仍面临诸多挑战。首先,如何精确识别并整合不同来源的数据,确保数据的质量和一致性,是一大挑战。其次,数据集的庞大规模带来了存储和计算上的挑战,尤其是在图神经网络训练时,如何高效处理和升级模型,以实现最佳的学习效果,亦是当前研究的热点问题。此外,如何将此数据集更有效地应用于药物发现和疾病机理研究,仍是科研人员面临的挑战之一。
常用场景
经典使用场景
在化学与生物信息学的交叉领域,ibm/otter_stitch数据集成为研究蛋白质与化学物质相互作用的宝贵资源。该数据集的经典使用场景在于,科研人员可通过其提供的SMILES字符串表示的化学物质与STRING数据库中蛋白质序列之间的互动信息,进行生物分子网络的分析与构建,从而深入探索药物设计与疾病机制。
衍生相关工作
基于ibm/otter_stitch数据集,研究者们已经衍生出了一系列相关的工作,包括但不限于使用图神经网络(GNN)对数据集进行深入分析,以及开发出了多种预训练模型如otter_stitch_classifier、otter_stitch_distmult和otter_stitch_transe,这些模型进一步推动了生物信息学与计算生物学领域的研究进展。
数据集最近研究
最新研究方向
在生物信息学领域,针对化学物质与蛋白质相互作用的研究日益深入。OTTER STITCH数据集在此背景下,提供了一个基于SMILES字符串和STRING数据库序列的化学物质与蛋白质相互作用的信息库。近期研究聚焦于通过高级图神经网络模型对STITCH数据库中的化学-蛋白质相互作用进行精确预测,尤其是对高置信度交互的筛选与分析。这一研究方向不仅提升了蛋白质-化学物质交互网络的预测准确性,还通过组织特性和亲和数据的整合,为药物发现和疾病机理研究提供了新的视角。此类研究对生物医学领域的影响深远,为相关领域的科研工作者提供了宝贵的资源和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作