ibm/otter_uniprot_bindingdb_chembl
收藏Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm/otter_uniprot_bindingdb_chembl
下载链接
链接失效反馈官方服务:
资源简介:
Otter UBC数据集包含来自Uniprot、BindingDB和ChemBL的实体(蛋白质/药物),总共包含6,207,654个三元组。Uniprot部分包含573,227个蛋白质,BindingDB部分包含2,656,221个数据点,ChemBL部分包含10,261个药物样生物活性分子。数据集的具体细节包括每个来源的数据量、数据类型以及如何处理数据以避免泄露。
Otter UBC数据集包含来自Uniprot、BindingDB和ChemBL的实体(蛋白质/药物),总共包含6,207,654个三元组。Uniprot部分包含573,227个蛋白质,BindingDB部分包含2,656,221个数据点,ChemBL部分包含10,261个药物样生物活性分子。数据集的具体细节包括每个来源的数据量、数据类型以及如何处理数据以避免泄露。
提供机构:
ibm
原始信息汇总
Otter UBC 数据集概述
数据集组成
- Uniprot: 包含573,227个来自SwissProt的蛋白质,具有多种属性,如序列、全名、生物体、蛋白质家族、功能描述、催化活性、途径及其长度。存在38,665个类型为target_of的边,连接Uniprot ID至ChEMBL和Drugbank ID,以及196,133个Uniprot蛋白质ID之间的相互作用者。
- BindingDB: 包含2,656,221个数据点,涉及120万种化合物和9,000个目标。为每种药物和蛋白质组合生成一个三元组,最终数据集包含2,232,392个三元组。
- ChEMBL: 包含10,261个具有相应SMILES的ChEMBL ID,其中7,610个具有sameAs链接至Drugbank ID的分子。
数据集规模
- 总计包含6,207,654个三元组。
原始数据来源
- Uniprot: 由UniProt Consortium提供。
- BindingDB: 由Tiqing Liu等人提供。
- ChEMBL: 由Anna Gaulton等人提供。
许可证
- MIT许可证。
联系方式
- 问题或评论可通过GitHub Repo发送。
搜集汇总
数据集介绍

背景与挑战
背景概述
Otter UBC数据集整合了Uniprot、BindingDB和ChEMBL三个生物医学数据库的实体,包括蛋白质和药物,共包含约620万个三元组。该数据集主要用于药物发现中的多模态知识图谱表示学习,提供了丰富的蛋白质序列、化合物结合和生物活性信息,以支持相关机器学习模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



