single-cell-brain-zarr

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/KokosDev/single-cell-brain-zarr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从CellxGene Census导出的，以分块压缩的Zarr存储格式提供，便于流式访问。数据集包含人类（Homo sapiens）大脑组织的单细胞RNA测序数据，经过筛选（tissue_general == 'brain' and is_primary_data == True），包含150,000个细胞和61,497个基因。数据集包含丰富的元数据标签，如细胞类型（cell_type）、疾病（disease）、组织（tissue）、性别（sex）和实验方法（assay）。细胞类型分布中，神经元（neuron）占比最高（18,061个细胞），其次是少突胶质细胞（oligodendrocyte，6,223个细胞）和成纤维细胞（fibroblast，5,280个细胞）。疾病标签涵盖120种独特疾病，包括阿尔茨海默病（Alzheimer disease）、COVID-19、帕金森病（Parkinson disease）等。数据布局包括表达矩阵（X）和元数据（obs和var），支持通过Zarr和AnnData进行高效加载和处理。数据集适用于单细胞RNA测序分析、生物医学研究及相关任务。

创建时间：

2026-03-04

原始信息汇总

数据集概述

基本信息

数据集名称: Single-cell brain (CellxGene Census) — Zarr
来源: CellxGene Census API
许可协议: MIT
标签: biology, single-cell, scrna-seq, zarr, scanpy, anndata

数据内容

研究对象: 智人 (Homo sapiens)
数据筛选条件: tissue_general == brain and is_primary_data == True
数据规模: 150,000 个细胞 × 61,497 个基因
存储格式: 分块压缩的 Zarr 存储
Zarr 文件路径: brain.zarr

包含的标签

obs/cell_type
obs/disease
obs/tissue
obs/sex
obs/assay

细胞类型分布（前25位）

细胞类型	细胞数量
neuron	18,061
oligodendrocyte	6,223
fibroblast	5,280
T cell	3,361
macrophage	2,773
natural killer cell	2,508
astrocyte	2,467
endothelial cell	2,310
CD4-positive, alpha-beta T cell	2,185
enterocyte	2,118
oligodendrocyte precursor cell	2,020
glioblast	1,963
classical monocyte	1,805
CD16-positive, CD56-dim natural killer cell, human	1,663
pericyte	1,649
monocyte	1,632
malignant cell	1,583
glutamatergic neuron	1,452
CD8-positive, alpha-beta T cell	1,412
mesenchymal cell	1,394
epithelial cell	1,391
plasma cell	1,377
microglial cell	1,359
B cell	1,223
retinal rod cell	1,215

疾病标签

唯一疾病标签总数: 120
部分疾病标签示例: Alzheimer disease, COVID-19, Parkinson disease, breast cancer, glioblastoma, normal 等。

数据结构

表达矩阵: X (密集二维数组)
- 分块大小: (1000, 1000)
- 数据类型: float32
- 压缩方式: Blosc zstd
元数据:
- obs/_index, obs/<col> (对于分类变量，格式为 obs/<col>_codes + obs/<col>_categories)
- var/_index, var/<col> (对于分类变量，格式为 var/<col>_codes + var/<col>_categories)

构建元数据

json { "census_version": "2025-11-08", "created_at": "2026-03-03T22:07:54.738185+00:00", "max_cells": 150000, "n_hvg": 0, "obs_value_filter": "tissue_general == brain and is_primary_data == True", "organism": "Homo sapiens", "schema_version": "1.0", "seed": 42, "source": "cellxgene-census", "x_chunks": [ 1000, 1000 ], "x_compression": { "clevel": 3, "cname": "zstd", "codec": "blosc", "shuffle": "bitshuffle" }, "shape": [ 150000, 61497 ], "obs_arrays": [ "_index", "assay", "cell_type", "disease", "sex", "tissue" ], "var_arrays": [ "_index", "feature_id", "feature_length", "feature_name", "feature_type", "n_measured_obs", "nnz", "soma_joinid" ] }

流式读取性能基准（单个1000×1000分块）

打开 Zarr 组: 0.0014 秒
读取一个 X[chunk] (1000×1000): 0.0175 秒

搜集汇总

数据集介绍

构建方式

在单细胞转录组学领域，数据的高效存储与访问是推动研究进展的关键。本数据集源自CellxGene Census API，通过精心筛选，仅保留人类脑组织且为原始数据的样本，最终形成包含15万个细胞与61497个基因的矩阵。数据以Zarr格式存储，采用分块压缩技术，每个数据块大小为1000×1000，并应用Blosc zstd压缩算法，确保了数据在保持完整性的同时，优化了存储效率与流式读取性能。

使用方法

利用该数据集进行科学研究时，用户可通过Zarr库直接读取数据文件，并借助AnnData结构将其转换为内存中的分析对象。数据集兼容Scanpy等主流单细胞分析工具，支持标准化、基因筛选、降维聚类等标准流程。示例代码展示了从数据加载到UMAP可视化及细胞群落识别的完整工作流，其分块读取特性允许用户在有限计算资源下高效处理海量数据，为脑疾病机制探索及细胞图谱构建提供了可靠的数据基础。

背景与挑战

背景概述

单细胞转录组测序技术革新了生命科学领域对复杂组织的解析能力，尤其在神经科学中，大脑作为高度异质的器官，其细胞类型与状态的精细图谱绘制成为前沿热点。single-cell-brain-zarr数据集于2026年3月由研究人员基于CellxGene Census平台构建，专注于人类大脑组织，包含约15万个细胞与超过6万个基因的表达矩阵。该数据集整合了细胞类型、疾病状态、组织来源等多维度注释，旨在为神经退行性疾病、肿瘤免疫及发育生物学等研究提供标准化、可流式访问的高通量数据资源，推动了单细胞数据共享与分析流程的标准化进程。

当前挑战

在单细胞生物学领域，大脑细胞图谱的构建面临细胞类型注释一致性、批次效应校正以及高维数据可视化等核心挑战。本数据集通过Zarr格式优化存储与访问效率，但原始数据整合过程中需克服跨研究平台的数据标准化难题，包括元数据格式统一、测序技术偏差校正以及大规模矩阵的压缩与分块策略设计。此外，数据涵盖120种疾病标签，其疾病与细胞状态的关联解析需应对临床样本异质性高、稀疏表达模式解读复杂等科学问题，对计算生物学方法提出了更高要求。

常用场景

经典使用场景

在单细胞转录组学领域，该数据集为研究大脑细胞异质性提供了关键资源。其经典使用场景涉及利用Zarr格式的高效流式访问特性，结合Scanpy等分析工具，对15万个脑细胞进行无监督聚类分析，以揭示神经元、胶质细胞及免疫细胞等主要细胞亚群的转录组特征。研究人员通过降维可视化与细胞类型注释，能够系统性地探索大脑组织的细胞组成图谱，为理解神经系统的细胞多样性奠定数据基础。

解决学术问题

该数据集有效解决了单细胞研究中大规模数据存储与访问效率的瓶颈问题。通过采用分块压缩的Zarr存储格式，它支持对海量基因表达矩阵的高性能流式读取，显著降低了内存占用与计算开销。在学术层面，其整合的细胞类型、疾病状态及组织来源等多维度注释，为研究神经退行性疾病、脑肿瘤及神经发育异常等病理过程中细胞特异性转录变化提供了标准化数据框架，推动了计算生物学方法在脑科学研究中的深度应用。

实际应用

在实际应用中，该数据集为生物医学研究提供了可直接部署的分析管道。临床研究人员可基于其疾病标签筛选特定病理样本，如阿尔茨海默病或胶质母细胞瘤，通过差异表达分析识别疾病相关生物标志物。此外，药物研发机构能够利用该数据构建细胞类型特异性基因网络，辅助靶点发现与药物安全性评估。其高效的Zarr存储结构也适用于云计算环境，支持多机构协作的大规模数据联合分析。

数据集最近研究