siditom/SCPECBS3
收藏Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/siditom/SCPECBS3
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
features:
- name: qseqid
dtype: string
- name: sseqid
dtype: string
- name: pident
dtype: float64
- name: length
dtype: int64
- name: mismatch
dtype: int64
- name: gapopen
dtype: int64
- name: qstart
dtype: int64
- name: qend
dtype: int64
- name: sstart
dtype: int64
- name: send
dtype: int64
- name: evalue
dtype: float64
- name: bitscore
dtype: float64
- name: qseq
dtype: string
- name: sseq
dtype: string
- name: query_dna_seq
sequence: string
- name: subject_dna_seq
sequence: string
- name: query_species
dtype: string
- name: subject_species
dtype: string
- name: expr
dtype: string
splits:
- name: train
num_bytes: 681059606
num_examples: 155097
- name: test
num_bytes: 95026421
num_examples: 15356
- name: val10
num_bytes: 52228089
num_examples: 161533
- name: val30
num_bytes: 34850757
num_examples: 55602
- name: val50
num_bytes: 31390548
num_examples: 34513
- name: val75
num_bytes: 29640124
num_examples: 23843
- name: val100
num_bytes: 28794098
num_examples: 18688
- name: val150
num_bytes: 27904586
num_examples: 13266
download_size: 168311263
dataset_size: 980894229
---
提供机构:
siditom
原始信息汇总
数据集概述
特征信息
数据集包含以下特征:
- qseqid: 字符串类型
- sseqid: 字符串类型
- pident: 浮点数类型
- length: 整数类型
- mismatch: 整数类型
- gapopen: 整数类型
- qstart: 整数类型
- qend: 整数类型
- sstart: 整数类型
- send: 整数类型
- evalue: 浮点数类型
- bitscore: 浮点数类型
- qseq: 字符串类型
- sseq: 字符串类型
- query_dna_seq: 序列字符串类型
- subject_dna_seq: 序列字符串类型
- query_species: 字符串类型
- subject_species: 字符串类型
- expr: 字符串类型
数据分割
数据集分为以下几个部分:
- train: 字节数为681059606,样本数为155097
- test: 字节数为95026421,样本数为15356
- val10: 字节数为52228089,样本数为161533
- val30: 字节数为34850757,样本数为55602
- val50: 字节数为31390548,样本数为34513
- val75: 字节数为29640124,样本数为23843
- val100: 字节数为28794098,样本数为18688
- val150: 字节数为27904586,样本数为13266
数据大小
- 下载大小: 168311263字节
- 数据集大小: 980894229字节



