five

scCompass

收藏
DataCite Commons2026-02-05 更新2025-05-18 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=5091a1ff73784c7b9400cf8326fd0c17
下载链接
链接失效反馈
官方服务:
资源简介:
We construct a large-scale single-cell pre-training corpus. This corpus consists of more than one hundred million single-cell transcriptomes consisting of 13 different species, humans, mice, monkeys, nematodes, zebrafish, fruit flies, rats, pigs, cows, dogs, horses, chickens, and sheep. Multispecies single-cell data provides a rich resource for understanding cellular heterogeneity across different organisms. However, assembling and preprocessing such data can be challenging due to differences in biological processes and technical variability between species. In this study, we describe the assembly and preprocessing of multispecies single-cell training data from three common model organisms: human, mouse, and monkey. Among the species, the cells of humans and mice have the highest ratio, and each of them consists of 50 million cells. This data is curated from publicly available datasets in the NCBI, CellXgene, EBI, and DDBJ databases. To prepare the multispecies single-cell data for downstream analyses, we performed several preprocessing steps. For quality control, we exclude low-quality and damaged cells, with less than 7 genes for proteins or miRNAs. Then we conduct normalization and log1p transformation to reduce the skewness.

本研究构建了一个大规模单细胞预训练语料库,该语料库涵盖13个物种的超1亿个单细胞转录组(single-cell transcriptomes),涉及物种包括人类、小鼠、猴、线虫、斑马鱼、果蝇、大鼠、猪、牛、犬、马、鸡与绵羊。 多物种单细胞数据可为解析不同生物的细胞异质性提供丰富资源。然而,受不同物种间生物学过程差异与技术异质性影响,此类数据的组装与预处理颇具挑战。 本研究针对人类、小鼠、猴三类常见模式生物,阐述了多物种单细胞训练数据的组装与预处理流程。在所有物种中,人类与小鼠的细胞占比最高,二者各自包含5000万个细胞。 本数据集整理自NCBI、CellXgene、EBI及DDBJ数据库的公开数据集。 为使多物种单细胞数据适配下游分析任务,本研究开展了多步预处理操作:质量控制阶段,我们剔除了低质量与受损细胞——即蛋白编码基因或微小RNA(miRNA)的检测基因数少于7个的细胞;随后进行标准化与log1p转换以降低数据偏态。
提供机构:
Science Data Bank
创建时间:
2024-06-14
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
scCompass是一个大规模单细胞预训练语料库,包含超过一亿个单细胞转录组,覆盖人类、小鼠、猴子等13个物种,其中人类和小鼠细胞各占5000万个。数据来源于多个公共数据库,并经过严格的质量控制和预处理,适用于跨物种细胞异质性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作