five

siditom/SCPECBS3

收藏
Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/siditom/SCPECBS3
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit dataset_info: features: - name: qseqid dtype: string - name: sseqid dtype: string - name: pident dtype: float64 - name: length dtype: int64 - name: mismatch dtype: int64 - name: gapopen dtype: int64 - name: qstart dtype: int64 - name: qend dtype: int64 - name: sstart dtype: int64 - name: send dtype: int64 - name: evalue dtype: float64 - name: bitscore dtype: float64 - name: qseq dtype: string - name: sseq dtype: string - name: query_dna_seq sequence: string - name: subject_dna_seq sequence: string - name: query_species dtype: string - name: subject_species dtype: string - name: expr dtype: string splits: - name: train num_bytes: 681059606 num_examples: 155097 - name: test num_bytes: 95026421 num_examples: 15356 - name: val10 num_bytes: 52228089 num_examples: 161533 - name: val30 num_bytes: 34850757 num_examples: 55602 - name: val50 num_bytes: 31390548 num_examples: 34513 - name: val75 num_bytes: 29640124 num_examples: 23843 - name: val100 num_bytes: 28794098 num_examples: 18688 - name: val150 num_bytes: 27904586 num_examples: 13266 download_size: 168311263 dataset_size: 980894229 ---
提供机构:
siditom
原始信息汇总

数据集概述

特征信息

数据集包含以下特征:

  • qseqid: 字符串类型
  • sseqid: 字符串类型
  • pident: 浮点数类型
  • length: 整数类型
  • mismatch: 整数类型
  • gapopen: 整数类型
  • qstart: 整数类型
  • qend: 整数类型
  • sstart: 整数类型
  • send: 整数类型
  • evalue: 浮点数类型
  • bitscore: 浮点数类型
  • qseq: 字符串类型
  • sseq: 字符串类型
  • query_dna_seq: 序列字符串类型
  • subject_dna_seq: 序列字符串类型
  • query_species: 字符串类型
  • subject_species: 字符串类型
  • expr: 字符串类型

数据分割

数据集分为以下几个部分:

  • train: 字节数为681059606,样本数为155097
  • test: 字节数为95026421,样本数为15356
  • val10: 字节数为52228089,样本数为161533
  • val30: 字节数为34850757,样本数为55602
  • val50: 字节数为31390548,样本数为34513
  • val75: 字节数为29640124,样本数为23843
  • val100: 字节数为28794098,样本数为18688
  • val150: 字节数为27904586,样本数为13266

数据大小

  • 下载大小: 168311263字节
  • 数据集大小: 980894229字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作