jirvine/plsdb_and_doric
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jirvine/plsdb_and_doric
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: OriC sequence
dtype: string
- name: ori_id
dtype: string
- name: plasmid_id
dtype: string
- name: pfamid_fast
dtype: string
- name: species
dtype: string
- name: cluster_id
dtype: string
- name: supercluster
dtype: int64
- name: split
dtype: string
- name: source
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 14602124
num_examples: 19494
- name: validation
num_bytes: 4245772
num_examples: 6283
download_size: 5186938
dataset_size: 18847896
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
数据集信息:
特征:
- 名称: OriC序列(OriC sequence)
数据类型: 字符串
- 名称: 复制起始位点ID(ori_id)
数据类型: 字符串
- 名称: 质粒ID(plasmid_id)
数据类型: 字符串
- 名称: Pfam家族快速编号(pfamid_fast)
数据类型: 字符串
- 名称: 物种(species)
数据类型: 字符串
- 名称: 聚类簇ID(cluster_id)
数据类型: 字符串
- 名称: 超聚类簇(supercluster)
数据类型: 64位整数型
- 名称: 数据集划分(split)
数据类型: 字符串
- 名称: 数据来源(source)
数据类型: 字符串
- 名称: 索引列0(__index_level_0__)
数据类型: 64位整数型
数据集划分:
- 名称: 训练集(train)
字节数: 14602124
样本数: 19494
- 名称: 验证集(validation)
字节数: 4245772
样本数: 6283
下载大小(download_size): 5186938
数据集总大小(dataset_size): 18847896
配置项:
- 配置名称: 默认配置(default)
数据文件:
- 划分集: 训练集(train)
路径: data/train-*
- 划分集: 验证集(validation)
路径: data/validation-*
提供机构:
jirvine
原始信息汇总
数据集概述
数据集特征
- OriC sequence: 数据类型 - 字符串
- ori_id: 数据类型 - 字符串
- plasmid_id: 数据类型 - 字符串
- pfamid_fast: 数据类型 - 字符串
- species: 数据类型 - 字符串
- cluster_id: 数据类型 - 字符串
- supercluster: 数据类型 - 整数
- split: 数据类型 - 字符串
- source: 数据类型 - 字符串
- index_level_0: 数据类型 - 整数
数据集分割
- 训练集 (train):
- 字节数: 14602124
- 样本数: 19494
- 验证集 (validation):
- 字节数: 4245772
- 样本数: 6283
数据集大小
- 下载大小: 5186938 字节
- 数据集总大小: 18847896 字节
数据文件配置
- 默认配置 (default):
- 训练集路径:
data/train-* - 验证集路径:
data/validation-*
- 训练集路径:
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



