LARRY dataset
收藏github2024-04-17 更新2024-05-31 收录
下载链接:
https://github.com/scDiffEq/LARRY-dataset
下载链接
链接失效反馈官方服务:
资源简介:
LARRY数据集是一组单细胞系谱追踪数据集,用于研究分化过程中的转录组景观和细胞命运。该数据集包含三个子集,均使用小鼠骨髓造血祖细胞和LARRY慢病毒条形码策略。
The LARRY dataset is a collection of single-cell lineage tracing datasets designed to investigate the transcriptomic landscape and cell fate during differentiation. This dataset comprises three subsets, all utilizing mouse bone marrow hematopoietic progenitor cells and the LARRY lentiviral barcoding strategy.
创建时间:
2021-07-06
原始信息汇总
数据集概述
数据集名称
LARRY 数据集
数据集内容
LARRY 数据集包含三个子数据集,均使用小鼠骨髓中的造血干细胞,并采用 LARRY 慢病毒条形码策略:
- 体外(in vitro)
- 体内(in vivo)- 移植到小鼠体内
- 细胞因子扰动(cytokine-perturbed)- 体外,分为不同的细胞因子培养条件
数据处理
该数据集提供了一个Python包,用于下载和预处理数据。数据预处理包括将文件格式化为AnnData格式,并执行基因过滤等预处理步骤。预处理后的数据可以分为测试和训练集,用于不同的机器学习任务。
数据集使用
用户可以通过调用larry.fetch()函数下载和格式化数据,数据默认保存在./KleinLabData目录下。此外,数据集还提供了LARRY_LightningDataModule类,用于准备数据,包括调用larry.fetch()和larry.pp.Yeo2021_recipe()等预处理函数。
数据集结构
AnnData对象,包含观测数×变量数 = 130887 × 25289- 观测属性包括:Library, Cell barcode, Time point, Starting population, Cell type annotation, Well, SPRING-x, SPRING-y
- 变量属性包括:gene_name
- 其他数据结构包括:X_clone, X_pca, X_scaled, X_umap等
数据集来源
参考文献
- Weinreb, C., Rodriguez-Fraticelli, A., Camargo, F.D., Klein, A.M. Lineage tracing on transcriptional landscapes links state to fate during differentiation. Science 80 (2020). https://doi.org/10.1126/science.aaw3381
搜集汇总
数据集介绍

构建方式
LARRY数据集的构建基于小鼠骨髓中的造血祖细胞,采用LARRY慢病毒条形码策略,涵盖了三种不同的实验条件:体外培养(in vitro)、体内移植(in vivo)以及细胞因子扰动(cytokine-perturbed)。这些数据集通过AllonKleinLab的GitHub仓库获取,并使用Python包进行预处理,将原始数据格式化为AnnData对象,以便于后续的基因过滤和降维处理。
特点
LARRY数据集的显著特点在于其多样的实验条件和丰富的细胞谱系追踪信息,能够深入研究转录组景观和细胞命运在分化过程中的变化。此外,数据集的预处理步骤包括基因过滤和降维,确保了数据的高质量和适用性,适合用于机器学习任务,如细胞命运预测。
使用方法
使用LARRY数据集时,用户可以通过Python包直接下载并预处理数据,生成AnnData对象。数据集支持多种机器学习任务,如细胞命运预测,用户可以根据需求选择不同的数据子集进行训练和测试。预处理后的数据可以进一步用于降维分析,如PCA和UMAP,以揭示数据中的潜在结构和模式。
背景与挑战
背景概述
LARRY数据集是由AllonKleinLab实验室创建的一组单细胞谱系追踪数据集,旨在研究转录组景观和细胞命运在分化过程中的变化。该数据集的核心研究问题围绕细胞状态与其命运之间的关联展开,利用小鼠骨髓中的造血祖细胞和LARRY慢病毒条形码策略,提供了三种不同的实验条件数据:体外培养、体内移植以及细胞因子扰动。自2020年发布以来,LARRY数据集在单细胞转录组学领域产生了深远影响,为研究细胞分化和命运决定提供了宝贵的资源。
当前挑战
LARRY数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,包含数十万细胞和数万个基因,导致数据处理和存储的复杂性增加。其次,单细胞数据的噪声和异质性较高,如何有效降噪并提取有意义的生物学信息是一大难题。此外,数据集的多样性(包括体外、体内及细胞因子扰动条件)要求研究者开发能够适应不同实验环境的分析方法。最后,数据集的预处理和标准化过程需要高度专业化的工具和算法,以确保数据质量和后续分析的可靠性。
常用场景
经典使用场景
LARRY数据集在单细胞谱系追踪领域中具有经典应用,主要用于研究转录组景观和细胞命运在分化过程中的变化。通过该数据集,研究者能够分析不同条件下的细胞分化路径,包括体外培养、体内移植以及细胞因子扰动等实验设置。这些数据为揭示细胞状态与命运之间的关联提供了宝贵的资源,尤其在细胞命运预测和转录组动态分析方面具有重要意义。
实际应用
LARRY数据集在实际应用中具有广泛的前景,特别是在生物医学研究和药物开发领域。通过分析细胞在不同条件下的分化路径,研究者可以更好地理解疾病的发生机制,并为个性化治疗提供依据。此外,该数据集还可用于开发和验证细胞命运预测模型,帮助优化干细胞治疗和再生医学的临床应用。
衍生相关工作
LARRY数据集的发布催生了一系列相关研究工作,特别是在单细胞转录组分析和细胞命运预测领域。许多研究者利用该数据集开发了新的算法和模型,用于更精确地预测细胞分化路径和命运。此外,该数据集还为多组学数据的整合分析提供了范例,推动了单细胞生物学领域的技术进步和方法创新。
以上内容由遇见数据集搜集并总结生成



