monsoon-nlp/protein-pairs-uniprot-swissprot
收藏Hugging Face2024-03-23 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoon-nlp/protein-pairs-uniprot-swissprot
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Protein Pairs and Similarity,专注于蛋白质对的相似性分析。数据集包含训练集、测试集和验证集中的蛋白质相似性信息。每个蛋白质随机选择两个相似性,通常选择相似性最高和最低的五分位数中的蛋白质。蛋白质由其UniProt ID和氨基酸序列表示,使用IUPAC-IUB代码。相似性基于UniProt / SwissProt的1,024维嵌入的余弦距离计算,嵌入数据下载于2024年3月,基于Rostlab/prot_t5_xl_uniref50模型。数据集的分割来源于khairi/uniprot-swissprot数据集。
该数据集名为Protein Pairs and Similarity,专注于蛋白质对的相似性分析。数据集包含训练集、测试集和验证集中的蛋白质相似性信息。每个蛋白质随机选择两个相似性,通常选择相似性最高和最低的五分位数中的蛋白质。蛋白质由其UniProt ID和氨基酸序列表示,使用IUPAC-IUB代码。相似性基于UniProt / SwissProt的1,024维嵌入的余弦距离计算,嵌入数据下载于2024年3月,基于Rostlab/prot_t5_xl_uniref50模型。数据集的分割来源于khairi/uniprot-swissprot数据集。
提供机构:
monsoon-nlp
原始信息汇总
数据集概述:Protein Pairs and Similarity
数据集内容
- 蛋白质相似性:包含训练、测试和验证集中的蛋白质相似性数据。
- 蛋白质表示:每个蛋白质通过其UniProt ID和氨基酸序列表示,使用IUPAC-IUB代码,每个氨基酸对应字母表中的一个字母。
- 相似性度量:使用基于UniProt / SwissProt 1,024维嵌入的余弦距离(相同=0),这些嵌入数据下载于2024年3月,基于
Rostlab/prot_t5_xl_uniref50模型。
数据集结构
- 数据划分:数据集分为训练、测试和验证集,源自
khairi/uniprot-swissprot数据集。 - 蛋白质选择:通常选择相似性位于顶部和底部五分位数的蛋白质,每个蛋白质随机选择两个相似性。
使用建议
- 模型和训练优化:对于优化相似性的模型和训练脚本,应使用
(1 - distance)。
数据来源
- 蛋白质来源:数据来源于UniProt-SwissProt。



