five

damlab/uniprot

收藏
Hugging Face2022-03-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/damlab/uniprot
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Uniprot/SwissProt数据库的镜像,包含超过50万种蛋白质的名称和序列。数据集从FASTA文件解析而来,未进行任何修改。使用该数据集时,需要考虑其社会影响和潜在的偏见,例如数据集主要包含来自研究充分的基因组的基因,这可能影响基因的广泛性。
提供机构:
damlab
原始信息汇总

数据集概述

数据集简介

该数据集是对Uniprot/SwissProt数据库的镜像,包含了超过500,000种蛋白质的名称和序列。数据来源于https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz。

数据集结构

数据实例

  • 数据字段: id, description, sequence
  • 数据分割: 无

数据集创建

数据集于2022年03月09日下载并解析成dataset对象,未经修改直接上传。

使用数据集的考虑因素

  • 社会影响: 由于HIV的变异倾向,药物抗性是治疗感染者时的常见问题。本数据集提供了大量已知对一种或多种药物具有抗性的蛋白酶序列,可用于进行蛋白酶抗性突变的计算分析。
  • 偏见讨论: 由于该数据库的采样性质,主要包含来自“研究充分”的基因组的基因,这可能影响所包含基因的广泛性。

附加信息

  • 数据集管理员: Will Dampier
  • 引用信息: 待定
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作