gastrulation_mmusculus
收藏Hugging Face2024-08-16 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/helical-ai/gastrulation_mmusculus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含小鼠胚胎发育早期阶段(第6.5天至第8.5天)的单细胞RNA测序数据,涵盖胚胎和胚外组织。使用10X Genomics的Chromium系统进行测序,共有139,331个细胞和29,452个基因。数据集提供了详细的元数据,包括胚胎发育阶段、测序批次和Theiler分期等。
创建时间:
2024-08-13
原始信息汇总
数据集概述
基本信息
- 名称: Mouse Gastrulation scRNA-seq data
- 标签: biology, rna, gene expression, mus musculus (mouse)
- 大小类别: 100K<n<1M
- 许可证: cc0-1.0
项目信息
- 来源: scRNA-seq whole mouse embryos during gastrulation and organoienesis, spanning days 6.5 to 8.5 of development, including embryonic and extraembryonic tissues.
- 原始文件: Array Express (E-MTAB-6967)
- 物种: Mus musculus (Mouse)
实验细节
- 实验方法: 10X Genomics Chromium system (version 1 chemistry)
- 细胞数量: 139,331
- 基因数量: 29,452
加载数据
使用Huggingface的优化库加载数据集并创建AnnData对象: python from datasets import load_dataset ds = load_dataset("helical-ai/gastrulation_mmusculus", trust_remote_code=True, split="train[:65%]", download_mode="reuse_cache_if_exists") ds = ds.with_format("np")
python observation_columns = [obs for obs in list(ds.features.keys()) if not obs == raw_counts] obs_data = pd.DataFrame(ds.select_columns(observation_columns).data.to_pandas(), columns=observation_columns) adata = ad.AnnData(ds[raw_counts], obs=obs_data) adata.var_names = ds.features[raw_counts].id.split(",") adata.var[gene_name] = adata.var_names.str.upper()
关键元数据
| 类别名称 | 类型 |
|---|---|
stage |
E6.5, E6.75, E7.0, E7.25, E7.5, E7.75, E8.0, E8.25, E8.5, mixed_gastrulation |
sequencing.batch |
1, 2, 3 |
theiler |
TS10, TS11, TS12, TS9, TS9-10 |
celltype |
Allantois, Anterior Primitive Streak, Blood progenitors 1, Blood progenitors 2, Cardiomyocytes, Caudal Mesoderm, Caudal epiblast, Caudal neurectoderm, Def. endoderm, Endothelium, Epiblast, Erythroid1, Erythroid2, Erythroid3, ExE ectoderm, ExE endoderm, ExE mesoderm, Forebrain/Midbrain/Hindbrain, Gut, Haematoendothelial progenitors, Intermediate mesoderm, Mesenchyme, Mixed mesoderm, NMP, Nascent mesoderm, Neural crest, Notochord, PGC, Paraxial mesoderm, Parietal endoderm, Pharyngeal mesoderm, Primitive Streak, Rostral neurectoderm, Somitic mesoderm, Spinal cord, Surface ectoderm, Visceral endoderm, nan |
许可证信息
数据发布在EMBL-EBI (Array Express),采用CC0许可证。
该数据集曾用于 Pijuan-Sala et al, Nature 2019。
搜集汇总
数据集介绍

构建方式
该数据集通过单细胞RNA测序技术(scRNA-seq)构建,涵盖了小鼠胚胎在6.5至8.5天发育期间的全胚胎样本,包括胚胎和胚胎外组织。数据采集使用了10X Genomics Chromium系统(版本1化学),共捕获了139,331个细胞和29,452个基因的表达信息。数据来源自Array Express数据库(E-MTAB-6967),并通过HuggingFace平台进行优化存储和分发。
特点
该数据集的特点在于其高分辨率的单细胞基因表达谱,覆盖了小鼠胚胎发育的关键阶段——原肠胚形成期。数据集不仅包含丰富的细胞类型注释,还提供了详细的胚胎发育阶段(E6.5至E8.5)、测序批次和Theiler分期信息。这些元数据为研究胚胎发育过程中的细胞命运决定和基因调控网络提供了重要支持。
使用方法
用户可通过HuggingFace的`datasets`库加载该数据集,并利用`AnnData`对象进行进一步分析。加载时,用户可以选择特定的数据子集(如训练集的65%),并提取观测列和原始计数矩阵。通过`scipy.sparse.lil_matrix`将数据转换为稀疏矩阵格式,最终生成`AnnData`对象,便于单细胞数据分析工具(如Scanpy)进行后续处理。
背景与挑战
背景概述
小鼠原肠胚形成单细胞RNA测序数据集(gastrulation_mmusculus)由Pijuan-Sala等人于2019年发布,旨在揭示小鼠胚胎发育过程中细胞命运决定的分子机制。该数据集涵盖了小鼠胚胎发育的第6.5天至第8.5天,包含了胚胎和胚胎外组织的单细胞RNA测序数据,共计139,331个细胞和29,452个基因。通过10X Genomics Chromium系统生成的这一数据集,为研究胚胎发育过程中细胞多样性和谱系特化提供了宝贵的资源。该数据集在发育生物学领域具有重要影响力,尤其是在理解原肠胚形成这一关键发育事件中细胞命运决定的分子基础方面。
当前挑战
该数据集的主要挑战在于如何准确解析胚胎发育过程中细胞命运的时空动态变化。首先,单细胞RNA测序技术虽然能够提供高分辨率的基因表达数据,但在数据处理和分析过程中,如何有效去除技术噪音和批次效应仍是一个难题。其次,胚胎发育过程中的细胞类型多样且动态变化,如何精确分类和注释这些细胞类型,尤其是在过渡状态下的细胞,仍然具有挑战性。此外,数据集规模庞大,如何高效存储和处理这些数据,同时保持数据的完整性和可重复性,也是研究人员需要面对的技术难题。
常用场景
经典使用场景
在发育生物学领域,gastrulation_mmusculus数据集被广泛应用于研究小鼠胚胎发育过程中的细胞命运决定和基因表达动态。通过单细胞RNA测序技术,该数据集捕捉了从胚胎发育第6.5天到第8.5天的细胞多样性,涵盖了胚胎和胚胎外组织的多个发育阶段。研究人员利用这些数据,能够深入探讨细胞类型分化的分子机制,揭示胚胎发育早期的关键调控网络。
衍生相关工作
基于gastrulation_mmusculus数据集,许多经典研究工作得以展开。例如,Pijuan-Sala等人在2019年发表在《Nature》上的研究,利用该数据集构建了小鼠胚胎发育的细胞图谱,揭示了胚胎发育早期的细胞命运决定机制。此外,该数据集还催生了多项关于胚胎发育调控网络和细胞类型分化的研究,推动了发育生物学领域的深入发展。
数据集最近研究
最新研究方向
近年来,随着单细胞RNA测序技术的飞速发展,小鼠原肠胚形成过程的研究成为了发育生物学领域的热点之一。gastrulation_mmusculus数据集提供了小鼠胚胎在原肠胚形成和器官发生期间的单细胞转录组数据,涵盖了从E6.5到E8.5的多个发育阶段。这一数据集为研究者深入探索胚胎细胞命运决定、谱系分化和细胞间相互作用提供了宝贵的资源。当前的研究方向主要集中在利用这些数据构建更精确的细胞命运图谱,揭示关键基因调控网络在原肠胚形成中的作用,以及探索胚胎发育过程中细胞异质性的动态变化。此外,该数据集还被广泛应用于开发新的计算模型和算法,以更好地解析单细胞数据的复杂性,推动发育生物学与计算生物学的交叉融合。这些研究不仅深化了对小鼠胚胎发育的理解,也为人类胚胎发育和疾病研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



