five

monsoon-nlp/primate-proteins

收藏
Hugging Face2024-03-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoon-nlp/primate-proteins
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含UniProtKB(知识库)中所有经过审查的灵长类蛋白质(Swiss-Prot),包括但不限于人类。每一行数据包含基因名称、物种或亚种、氨基酸序列以及UniProt中可用的注释/注解。注释可能为空,也可能包含诸如可能的功能、细胞内的位置、身体中的位置等信息。为了避免模型生成虚假的PubMed参考文献,已移除PubMed参考编号。数据集的XML源文件来自UniProt的下载页面。

该数据集包含UniProtKB(知识库)中所有经过审查的灵长类蛋白质(Swiss-Prot),包括但不限于人类。每一行数据包含基因名称、物种或亚种、氨基酸序列以及UniProt中可用的注释/注解。注释可能为空,也可能包含诸如可能的功能、细胞内的位置、身体中的位置等信息。为了避免模型生成虚假的PubMed参考文献,已移除PubMed参考编号。数据集的XML源文件来自UniProt的下载页面。
提供机构:
monsoon-nlp
原始信息汇总

数据集概述

数据集内容

  • 包含UniProtKB知识库中经过审核的灵长类蛋白质数据,不仅限于人类。
  • 每条记录包括基因名称、物种或亚种、氨基酸序列及UniProt中的注释信息。
  • 一个基因名称可能对应UniProt中多个不同的条目或ID。

注释信息

  • 注释可能包含:
    • 蛋白质的潜在功能描述
    • 细胞内位置(例如:“亚细胞定位:细胞质,黑素体”)
    • 体内表达位置(例如:“异构体1仅在骨骼肌中表达”)
  • 注释可能为空。

数据集特点

  • 移除了PubMed参考编号,以避免训练模型产生错误的PubMed引用。

数据来源

  • 数据源为XML格式,来自https://www.uniprot.org/help/downloads。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作