tahoe-100m-zarr
收藏Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/KokosDev/tahoe-100m-zarr
下载链接
链接失效反馈官方服务:
资源简介:
Tahoe-100M Zarr Collection是一个专为单细胞RNA测序(scRNA-seq)数据设计的开源数据集,源自Arc Virtual Cell Atlas(Tahoe-100M),并以Zarr格式存储,以支持高效的分块按需访问。数据集包含一个快速入门样本(150,000个细胞)和14个分片存储的完整生产集合(总计100,648,790个细胞),旨在支持大规模单细胞分析和生物信息学机器学习任务。数据采用Blosc zstd压缩算法,显著减小了存储需求(压缩比约100倍以上),并优化了访问速度。数据集适用于单细胞分析预处理、特征提取、嵌入任务以及I/O性能基准测试。使用建议包括利用快速入门样本进行开发和演示,以及分片处理完整集合以适应内存限制。
创建时间:
2026-03-24



