damlab/uniprot
收藏Hugging Face2022-03-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/damlab/uniprot
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Uniprot/SwissProt数据库的镜像,包含超过50万种蛋白质的名称和序列。数据集从FASTA文件解析而来,未进行任何修改。使用该数据集时,需要考虑其社会影响和潜在的偏见,例如数据集主要包含来自研究充分的基因组的基因,这可能影响基因的广泛性。
提供机构:
damlab
原始信息汇总
数据集概述
数据集简介
该数据集是对Uniprot/SwissProt数据库的镜像,包含了超过500,000种蛋白质的名称和序列。数据来源于https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz。
数据集结构
数据实例
- 数据字段: id, description, sequence
- 数据分割: 无
数据集创建
数据集于2022年03月09日下载并解析成dataset对象,未经修改直接上传。
使用数据集的考虑因素
- 社会影响: 由于HIV的变异倾向,药物抗性是治疗感染者时的常见问题。本数据集提供了大量已知对一种或多种药物具有抗性的蛋白酶序列,可用于进行蛋白酶抗性突变的计算分析。
- 偏见讨论: 由于该数据库的采样性质,主要包含来自“研究充分”的基因组的基因,这可能影响所包含基因的广泛性。
附加信息
- 数据集管理员: Will Dampier
- 引用信息: 待定



