TerminatorJ/relabel_output-XETG00048__0003400__TILD117MF__20230313__191400
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/TerminatorJ/relabel_output-XETG00048__0003400__TILD117MF__20230313__191400
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含基因表达数据、细胞标识符、基因名称、基因排名、全标记序列以及基因-基因矩阵等信息。数据集分为训练集、测试集和验证集,分别包含29488、9215和7372个样本。数据集的下载大小为27020931字节,总大小为2179469090字节。
This dataset contains gene expression data, cell identifiers, gene names, ranked gene names, full token sequences, and gene-gene matrices. The dataset is divided into training, test, and validation sets, containing 29488, 9215, and 7372 samples respectively. The download size of the dataset is 27020931 bytes, and the total size is 2179469090 bytes.
提供机构:
TerminatorJ
原始信息汇总
数据集概述
数据集特征
- Expression: 序列类型,数据类型为
float64 - Split: 字符串类型
- Cell_id: 字符串类型
- Gene: 序列类型,数据类型为
string - Cell_Ids: 字符串类型
- Ranked_Gene_Names: 序列类型,数据类型为
string - Full_Tokens: 序列类型,数据类型为
int64 - Gene_Gene_Matrix: 嵌套序列类型,内部数据类型为
float64
数据集分割
- train: 包含 29488 个样本,占用 1393450732 字节
- test: 包含 9215 个样本,占用 437606411 字节
- validation: 包含 7372 个样本,占用 348411947 字节
数据集大小
- 下载大小: 27020931 字节
- 总数据集大小: 2179469090 字节
配置
- default:
- train: 数据路径为
data/train-* - test: 数据路径为
data/test-* - validation: 数据路径为
data/validation-*
- train: 数据路径为



