monsoon-nlp/primate-proteins
收藏Hugging Face2024-03-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoon-nlp/primate-proteins
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含UniProtKB(知识库)中所有经过审查的灵长类蛋白质(Swiss-Prot),包括但不限于人类。每一行数据包含基因名称、物种或亚种、氨基酸序列以及UniProt中可用的注释/注解。注释可能为空,也可能包含诸如可能的功能、细胞内的位置、身体中的位置等信息。为了避免模型生成虚假的PubMed参考文献,已移除PubMed参考编号。数据集的XML源文件来自UniProt的下载页面。
该数据集包含UniProtKB(知识库)中所有经过审查的灵长类蛋白质(Swiss-Prot),包括但不限于人类。每一行数据包含基因名称、物种或亚种、氨基酸序列以及UniProt中可用的注释/注解。注释可能为空,也可能包含诸如可能的功能、细胞内的位置、身体中的位置等信息。为了避免模型生成虚假的PubMed参考文献,已移除PubMed参考编号。数据集的XML源文件来自UniProt的下载页面。
提供机构:
monsoon-nlp
原始信息汇总
数据集概述
数据集内容
- 包含UniProtKB知识库中经过审核的灵长类蛋白质数据,不仅限于人类。
- 每条记录包括基因名称、物种或亚种、氨基酸序列及UniProt中的注释信息。
- 一个基因名称可能对应UniProt中多个不同的条目或ID。
注释信息
- 注释可能包含:
- 蛋白质的潜在功能描述
- 细胞内位置(例如:“亚细胞定位:细胞质,黑素体”)
- 体内表达位置(例如:“异构体1仅在骨骼肌中表达”)
- 注释可能为空。
数据集特点
- 移除了PubMed参考编号,以避免训练模型产生错误的PubMed引用。
数据来源
- 数据源为XML格式,来自https://www.uniprot.org/help/downloads。



