five

DeepFoldProtein/foldseek_over70_ss_proteome_processed_1024_ankh_sst8_70_test

收藏
Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/DeepFoldProtein/foldseek_over70_ss_proteome_processed_1024_ankh_sst8_70_test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个与蛋白质序列相关的特征,如uniprotAccession、chain_id、seq等,以及一些与模型训练相关的特征,如input_ids、attention_mask等。数据集大小为1915136字节,训练集包含99个样本,可能用于蛋白质序列分析或其他生物信息学研究。

该数据集包含多个与蛋白质序列相关的特征,如uniprotAccession、chain_id、seq等,以及一些与模型训练相关的特征,如input_ids、attention_mask等。数据集大小为1915136字节,训练集包含99个样本,可能用于蛋白质序列分析或其他生物信息学研究。
提供机构:
DeepFoldProtein
原始信息汇总

数据集概述

数据集特征

  • uniprotAccession: 数据类型 - string
  • chain_id: 数据类型 - string
  • seq: 数据类型 - string
  • sst3: 数据类型 - string
  • sst8: 数据类型 - string
  • len: 数据类型 - int64
  • confidenceScore: 数据类型 - float64
  • input_ids: 数据类型 - int32
  • attention_mask: 数据类型 - int8
  • special_tokens_mask: 数据类型 - int8
  • label: 数据类型 - int64
  • loss_mask: 数据类型 - int64

数据集分割

  • 分割名称: train
  • 数据大小: 1915136 字节
  • 样本数量: 99

数据集大小

  • 下载大小: 128542 字节
  • 总数据集大小: 1915136 字节

配置

  • 配置名称: default
  • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作