five

ibm/otter_uniprot_bindingdb_chembl

收藏
Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm/otter_uniprot_bindingdb_chembl
下载链接
链接失效反馈
官方服务:
资源简介:
Otter UBC数据集包含来自Uniprot、BindingDB和ChemBL的实体(蛋白质/药物),总共包含6,207,654个三元组。Uniprot部分包含573,227个蛋白质,BindingDB部分包含2,656,221个数据点,ChemBL部分包含10,261个药物样生物活性分子。数据集的具体细节包括每个来源的数据量、数据类型以及如何处理数据以避免泄露。

Otter UBC数据集包含来自Uniprot、BindingDB和ChemBL的实体(蛋白质/药物),总共包含6,207,654个三元组。Uniprot部分包含573,227个蛋白质,BindingDB部分包含2,656,221个数据点,ChemBL部分包含10,261个药物样生物活性分子。数据集的具体细节包括每个来源的数据量、数据类型以及如何处理数据以避免泄露。
提供机构:
ibm
原始信息汇总

Otter UBC 数据集概述

数据集组成

  • Uniprot: 包含573,227个来自SwissProt的蛋白质,具有多种属性,如序列、全名、生物体、蛋白质家族、功能描述、催化活性、途径及其长度。存在38,665个类型为target_of的边,连接Uniprot ID至ChEMBL和Drugbank ID,以及196,133个Uniprot蛋白质ID之间的相互作用者。
  • BindingDB: 包含2,656,221个数据点,涉及120万种化合物和9,000个目标。为每种药物和蛋白质组合生成一个三元组,最终数据集包含2,232,392个三元组。
  • ChEMBL: 包含10,261个具有相应SMILES的ChEMBL ID,其中7,610个具有sameAs链接至Drugbank ID的分子。

数据集规模

  • 总计包含6,207,654个三元组。

原始数据来源

  • Uniprot: 由UniProt Consortium提供。
  • BindingDB: 由Tiqing Liu等人提供。
  • ChEMBL: 由Anna Gaulton等人提供。

许可证

  • MIT许可证。

联系方式

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Otter UBC数据集整合了Uniprot、BindingDB和ChEMBL三个生物医学数据库的实体,包括蛋白质和药物,共包含约620万个三元组。该数据集主要用于药物发现中的多模态知识图谱表示学习,提供了丰富的蛋白质序列、化合物结合和生物活性信息,以支持相关机器学习模型的训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作