five

yolksac_human

收藏
Hugging Face2024-08-13 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/helical-ai/yolksac_human
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含人类胎儿卵黄囊的单细胞RNA测序数据,来自一个女性捐赠者,Carnegie Stage 17。数据集涵盖31,680个细胞和37,318个基因,通过10X 5'转录组分析技术获取。数据集提供三种粒度的细胞类型注释,包括Level 1, Level 2和Level 3。原始数据可在Array Express (E-MTAB-11673)和17_04_24_YolkSacRaw_F158_WE_annots.h5ad文件中找到。数据集的物种为智人(人类),许可证为CC0-1.0,并在Goh et al, Science, 2023的文章中使用。
创建时间:
2024-08-06
原始信息汇总

YolkSac Human 数据集概述

基本信息

  • 标签: 生物学, RNA, 基因表达
  • 数据集名称: YolkSac Human
  • 数据量: 10K<n<100K
  • 许可证: CC0-1.0

数据来源

实验细节

  • 实验类型: 10X 5 转录组测序
  • 细胞数量: 31,680
  • 基因数量: 37,318

数据加载

python from datasets import load_dataset ds = load_dataset("helical-ai/yolksac_human", trust_remote_code=True, split="train[:65%]", download_mode="reuse_cache_if_exists") ds = ds.with_format("np")

细胞类型注释

数据集中包含三个级别的细胞注释:

注释粒度级别 细胞类型名称
Level 1 (LVL1) ERYTHROID, LYMPHOID, MK, MYELOID, PROGENITOR, STROMA
Level 2 (LVL2) B_CELL, CMP, DC, ELP, ENDODERM, ENDOTHELIUM, EOSINOPHIL_BASOPHIL, ERYTHROID, FIBROBLAST, HSPC, ILC, LMPP, MACROPHAGE, MAST_CELL, MEMP, MESOTHELIUM, MK, MONO MAC DC2, MONO MAC PRE DC2, MONOCYTE, MONOCYTE_MACROPHAGE, MONOCYTE_YS_1, MOP, NEUTROPHIL_PRECURSOR, NK, PDC PRECURSOR, PROMONOCYTE, SMOOTH_MUSCLE
Level 3 (LVL3) CMP, DC2_CYCLING, DEF_HSPC_1, DEF_HSPC_2, EARLY_ERYTHROID, ELP, ENDODERM, ENDOTHELIUM_AEC, ENDOTHELIUM_PROLIF_AEC, ENDOTHELIUM_PROLIF_SINUSOIDAL_EC, ENDOTHELIUM_SINUSOIDAL, ENDOTHELIUM_VWF, EO_BASO_MAST_PRECURSOR, ERYTHROID, FIBROBLAST, HE, HSPC_1, HSPC_2, ILC_PRECURSOR, IMMATURE_ENDOTHELIUM, LMPP, LYMPHOID B LIN, MAC DC2, MACROPHAGE_IRON_RECYCLING, MACROPHAGE_KUPFFER_LIKE, MACROPHAGE_LYVE1_HIGH, MACROPHAGE_MICROGLIA, MACROPHAGE_PRE_MAC, MACROPHAGE_PROLIFERATING, MAST_CELL, MEMP, MESOTHELIUM, MID_ERYTHROID, MK, MONO MAC DC2, MONO MAC PRE DC2, MONOCYTE_0, MONOCYTE_1, MONOCYTE_MACROPHAGE, MOP, NEUTROPHIL_PRECURSOR, NK, PDC PRECURSOR, PRE DC2, PRIM_HSPC_1, PRIM_HSPC_2, PROMONOCYTE, SMOOTH_MUSCLE

许可证信息

数据发布在EMBL-EBI (Array Express),采用CC0许可证。

备注

该数据集目前仅包含一个捐赠者的数据,未来将更新以包含更多捐赠者。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于人类胎儿卵黄囊的单细胞RNA测序数据构建,数据来源于一名女性捐赠者,处于Carnegie Stage 17发育阶段。通过10X 5'转录组分析技术,捕获了31,680个细胞和37,318个基因的表达信息。数据以AnnData格式存储,包含原始计数矩阵和细胞注释信息,支持多层次细胞类型分类。数据来源公开,可通过Array Express数据库获取原始文件。
特点
该数据集的特点在于其高分辨率的单细胞转录组数据,涵盖了人类胎儿卵黄囊中多种细胞类型的基因表达谱。数据提供了三个层次的细胞类型注释,从粗粒度到细粒度,分别对应不同的细胞类型分类。此外,数据集还包含了丰富的细胞类型信息,如红细胞、淋巴细胞、髓系细胞等,为研究早期胚胎发育和免疫系统形成提供了宝贵资源。
使用方法
该数据集可通过Huggingface平台加载,使用`load_dataset`函数即可获取数据。加载后,数据以AnnData对象形式呈现,用户可通过`scipy.sparse`库处理稀疏矩阵,并结合`pandas`进行数据框操作。数据集中包含的细胞注释信息可用于进一步分析细胞类型及其基因表达模式。此外,数据集支持多种分析工具,如单细胞转录组分析流程,适用于发育生物学和免疫学领域的研究。
背景与挑战
背景概述
yolksac_human数据集聚焦于人类胎儿卵黄囊的单细胞RNA测序数据,旨在揭示卵黄囊在胚胎发育过程中的关键作用。卵黄囊不仅是胚胎早期血液和免疫细胞的主要来源,还为其提供营养和代谢支持。尽管模型系统中的研究已取得重要进展,但人类卵黄囊的功能研究仍相对有限。该数据集由Haniffa实验室和HDBR合作创建,基于10X 5'转录组分析技术,涵盖了31,680个细胞和37,318个基因的表达谱,为人类发育生物学研究提供了高分辨率的单细胞数据支持。其研究成果已发表于《Science》期刊,显著推动了人类早期发育和免疫系统起源的研究。
当前挑战
yolksac_human数据集在解决人类卵黄囊功能解析的领域问题上,面临的主要挑战包括细胞类型注释的复杂性和数据多样性的不足。尽管数据集提供了三个层次的细胞类型注释,但由于卵黄囊细胞的高度异质性和动态变化,精确区分和定义细胞亚型仍具有挑战性。此外,当前数据集仅包含单一供体的数据,限制了其在研究人类发育多样性方面的普适性。在数据构建过程中,单细胞RNA测序技术的技术噪声、数据稀疏性以及细胞捕获效率的差异也增加了数据分析的难度。未来需要通过扩展供体数量和优化实验技术,进一步提升数据集的代表性和可靠性。
常用场景
经典使用场景
在生物学领域,yolksac_human数据集被广泛应用于单细胞RNA测序(scRNA-seq)研究中,特别是在探索人类胚胎发育过程中卵黄囊(Yolk Sac)的功能和细胞组成方面。该数据集通过高分辨率的单细胞基因组学技术,提供了对卵黄囊中血液和免疫细胞生成的深入洞察,为研究胚胎早期发育提供了宝贵的数据资源。
实际应用
在实际应用中,yolksac_human数据集为生物医学研究和临床诊断提供了重要支持。例如,该数据集可用于研究胚胎发育异常、血液疾病以及免疫系统发育的相关机制。此外,基于该数据集的研究成果还可能为再生医学和干细胞治疗提供新的思路和方法。
衍生相关工作
yolksac_human数据集已经衍生出多项经典研究工作,特别是在胚胎发育和免疫系统研究领域。例如,Goh等人在2023年发表在《Science》上的研究利用该数据集揭示了卵黄囊在胚胎早期发育中的关键作用。这些研究不仅深化了我们对胚胎发育的理解,还为未来的生物医学研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作