five

monsoon-nlp/protein-pairs-uniprot-swissprot

收藏
Hugging Face2024-03-23 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoon-nlp/protein-pairs-uniprot-swissprot
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Protein Pairs and Similarity,专注于蛋白质对的相似性分析。数据集包含训练集、测试集和验证集中的蛋白质相似性信息。每个蛋白质随机选择两个相似性,通常选择相似性最高和最低的五分位数中的蛋白质。蛋白质由其UniProt ID和氨基酸序列表示,使用IUPAC-IUB代码。相似性基于UniProt / SwissProt的1,024维嵌入的余弦距离计算,嵌入数据下载于2024年3月,基于Rostlab/prot_t5_xl_uniref50模型。数据集的分割来源于khairi/uniprot-swissprot数据集。

该数据集名为Protein Pairs and Similarity,专注于蛋白质对的相似性分析。数据集包含训练集、测试集和验证集中的蛋白质相似性信息。每个蛋白质随机选择两个相似性,通常选择相似性最高和最低的五分位数中的蛋白质。蛋白质由其UniProt ID和氨基酸序列表示,使用IUPAC-IUB代码。相似性基于UniProt / SwissProt的1,024维嵌入的余弦距离计算,嵌入数据下载于2024年3月,基于Rostlab/prot_t5_xl_uniref50模型。数据集的分割来源于khairi/uniprot-swissprot数据集。
提供机构:
monsoon-nlp
原始信息汇总

数据集概述:Protein Pairs and Similarity

数据集内容

  • 蛋白质相似性:包含训练、测试和验证集中的蛋白质相似性数据。
  • 蛋白质表示:每个蛋白质通过其UniProt ID和氨基酸序列表示,使用IUPAC-IUB代码,每个氨基酸对应字母表中的一个字母。
  • 相似性度量:使用基于UniProt / SwissProt 1,024维嵌入的余弦距离(相同=0),这些嵌入数据下载于2024年3月,基于Rostlab/prot_t5_xl_uniref50模型。

数据集结构

  • 数据划分:数据集分为训练、测试和验证集,源自khairi/uniprot-swissprot数据集。
  • 蛋白质选择:通常选择相似性位于顶部和底部五分位数的蛋白质,每个蛋白质随机选择两个相似性。

使用建议

  • 模型和训练优化:对于优化相似性的模型和训练脚本,应使用(1 - distance)

数据来源

  • 蛋白质来源:数据来源于UniProt-SwissProt。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作