paupaiz/Bone_Marrow_BMMCs
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/paupaiz/Bone_Marrow_BMMCs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从12名健康人类捐赠者的骨髓单核细胞中收集的单细胞多组学数据,旨在为多模态单细胞数据集成提供一个基准测试平台。数据集涵盖了基因表达、染色质可及性和蛋白质丰度等多种数据类型,并经过了详细的数据收集、预处理和质量控制步骤。数据集的创建过程包括使用10X Genomics单细胞多组学ATAC + 基因表达试剂盒进行单核RNA和染色质可及性的联合分析。预处理步骤包括去除低质量细胞和双细胞,并对基因表达、染色质可及性和蛋白质丰度数据进行了标准化和转换。数据集的结构包括训练数据存储在AnnData h5ad文件中,并且设计了一个嵌套的批次布局,使得一些捐赠者样本在多个站点进行测量。数据集的注释过程由多位专家完成,并提供了详细的元数据信息。
该数据集包含从12名健康人类捐赠者的骨髓单核细胞中收集的单细胞多组学数据,旨在为多模态单细胞数据集成提供一个基准测试平台。数据集涵盖了基因表达、染色质可及性和蛋白质丰度等多种数据类型,并经过了详细的数据收集、预处理和质量控制步骤。数据集的创建过程包括使用10X Genomics单细胞多组学ATAC + 基因表达试剂盒进行单核RNA和染色质可及性的联合分析。预处理步骤包括去除低质量细胞和双细胞,并对基因表达、染色质可及性和蛋白质丰度数据进行了标准化和转换。数据集的结构包括训练数据存储在AnnData h5ad文件中,并且设计了一个嵌套的批次布局,使得一些捐赠者样本在多个站点进行测量。数据集的注释过程由多位专家完成,并提供了详细的元数据信息。
提供机构:
paupaiz
原始信息汇总
数据集卡片:骨髓单细胞多组学数据集
数据集概述
从12名健康人类供体的骨髓单核细胞中收集的单细胞多组学数据。
数据集详情
数据集描述
该研究设计如下:
-
Multiome
- 站点1:供体1, 2, 3
- 站点2:供体1, 4, 5
- 站点3:供体3, 6, 7, 10
- 站点4:供体1, 8, 9
-
数据集由以下人员策划: Burkhardt DB, Lücken MD, Lance C, Cannoodt R, Pisco AO, Krishnaswamy S, Theis FJ, Bloom JM
-
许可证: MIT
数据集来源
- 仓库: https://github.com/openproblems-bio
- 论文: https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/158f3069a435b314a80bdcb024f8e422-Abstract-round2.html
用途
该数据集旨在用于多模态单细胞数据整合的基准测试,包括模态预测、不同模态的匹配配置文件以及从多个模态学习联合嵌入。
数据集结构
训练数据以AnnData h5ad文件形式提供。数据集设计为嵌套批次布局,某些供体样本在多个站点进行测量,某些供体在单个站点进行测量。
数据收集和处理
基因表达(GEX)预处理
- 细胞根据线粒体含量、每个细胞的UMI计数和检测到的基因进行过滤。
- 使用scran计算大小因子,并存储在adata.obs["size_factors"]中。
- UMI计数按大小因子进行归一化,原始计数存储在adata.layers["counts"]中,归一化计数存储在adata.X中。
- 归一化计数进行log1p变换,存储在adata.layers["log_norm"]中。
染色质可及性(ATAC)预处理
- 使用Signac处理ATAC-seq数据,进行质量控制、降维和将峰转换为基因活性得分。
- 峰-细胞矩阵计数二值化,仅表示每个区域的可达性状态。
- 细胞根据5个质量控制指标进行过滤。
- 数据二值化,所有值>0设置为1,存储在adata.X中,原始UMI计数存储在adata.layers["counts"]中。
蛋白质丰度(ADT)预处理
- 使用TotalSeq™-B Human Universal Cocktail, V1.0测量134种细胞表面标记和6种同型控制。
- 同型控制存储在adata.obsm["isotype_controls"]中。
- ADT蛋白测量进行质量控制,并使用中心对数比(CLR)变换进行归一化,CLR计数存储在adata.X中,原始计数存储在adata.layers["counts"]中。
注释过程
元数据
-
基因表达观察元数据
- .obs.index:带有批次标签的细胞条形码。
- .obs["n_genes_by_counts"]:细胞中至少有1个计数的基因数。
- .obs["pct_counts_mt"]:映射到线粒体基因的UMI计数百分比。
- .obs["n_counts"]:细胞中检测到的UMI数。
- .obs["n_genes"]:细胞中检测到的基因数。
- .obs["size_factors"]:细胞的估计大小因子。
- .obs["phase"]:细胞周期阶段,由scanpy.tl.score_genes_cell_cycle计算。
- .obs["leiden_final"]:
- .obs["atac_ann"]:来自联合ATAC数据的细胞类型注释。
- .obs["cell_type"]:来自GEX数据的细胞类型注释。
- .obs["pseudotime_order_GEX"]:数据中注释的发育轨迹的扩散伪时间注释。
- .obs["batch"]:细胞采样的批次,格式为s1d1(站点1供体1)。
-
基因表达特征元数据
- .var.index:每个基因的Ensembl基因名称。
- .var["gene_ids"]:用于唯一跟踪基因的Ensembl稳定ID。
- .var["feature_types"]:表示每个特征为基因表达特征,应为GEX。
- .var["genome"]:用于读取映射的基因组组装。
- .var["n_cells-[batch]"]:在[batch]中检测到基因的细胞数。
- .var["highly_variable-[batch]"]:在[batch]中是否确定为高度可变的基因。
-
ATAC观察元数据
- .obs.index:带有批次标签的细胞条形码。
- .obs["nCount_peaks"]:细胞中检测到的峰数。
- .obs["atac_fragments"]:细胞中的UMI计数(在峰内和峰外)。
- .obs["reads_in_peaks_frac"]:峰内UMI的分数。
- .obs["blacklist_fraction"]:Encode黑名单区域中UMI的分数。
- .obs["nucleosome_signal"]:核小体信号,描述片段长度分布,预期遵循跨越一个或多个核小体所需的DNA长度。
- .obs["phase"]:细胞周期阶段,由scanpy.tl.score_genes_cell_cycle计算。
- .obs["leiden_final"]:
- .obs["rna_ann"]:来自联合RNA数据的细胞类型注释。
- .obs["cell_type"]:来自ATAC数据的细胞类型注释。
- .obs["pseudotime_order_ATAC"]:数据中注释的发育轨迹的扩散伪时间注释。
- .obs["batch"]:细胞采样的批次,格式为s1d1(站点1供体1)。
-
ATAC特征元数据
- .var.index:每个ATAC峰的基因组坐标,直接与参考基因组相关,格式为chr1-1234570-1234870。
- .var["feature_types"]:表示每个特征为基因表达特征,应为ATAC。
- .var["n_cells-[batch]"]:在[batch]中检测到峰的细胞数。
潜在偏差
细胞类型识别和双峰去除已经完成。供体年龄(22 - 40岁)、性别和种族各异(详细信息见相关数据表)。
注释者
Burkhardt DB, Lücken MD, Lance C, Cannoodt R, Pisco AO, Krishnaswamy S, Theis FJ, Bloom JM
引用
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/158f3069a435b314a80bdcb024f8e422-Abstract-round2.html
搜集汇总
数据集介绍

构建方式
在单细胞生物学领域,获取可靠的真实标签常面临挑战,而多模态测量技术为机器学习提供了新的基准。该数据集通过10X Genomics单细胞多组学ATAC+基因表达试剂盒,对12名健康人类供体的骨髓单个核细胞进行联合分析,实现了同一细胞中RNA表达与染色质可及性的同步观测。数据采集后,经过严格的质控流程,包括低质量细胞与双联体的剔除,并采用scran计算尺寸因子进行归一化处理,ATAC数据则通过Signac工具进行二值化处理,最终形成结构化的AnnData对象,为多模态数据整合研究奠定了坚实基础。
特点
该数据集以其精心设计的嵌套批次布局而著称,部分供体样本在多个站点进行测量,有效模拟了真实实验中的技术变异。数据涵盖基因表达、染色质可及性及蛋白质丰度三种模态,每种模态均经过标准化预处理,并保留了原始计数与归一化层,便于方法学比较。丰富的元数据注释,包括细胞类型标注、细胞周期相位及伪时间轨迹信息,为深入探索细胞异质性提供了多维视角。数据集的设计兼顾了探索性与基准测试需求,为单细胞多组学整合算法评估提供了理想平台。
使用方法
研究人员可通过AnnData.read_h5ad()函数加载训练数据,该数据集以h5ad格式存储,兼容Scanpy等主流单细胞分析工具。主要应用场景包括多模态预测、跨模态图谱匹配及联合嵌入学习等基准任务。用户可利用.obs与.var中的详细元数据,结合预处理后的归一化层进行下游分析,如细胞类型鉴定与发育轨迹推断。数据集支持跨站点与供体的批次效应研究,为开发稳健的多组学整合算法提供了标准化测试环境。
背景与挑战
背景概述
在单细胞生物学领域,多模态数据的整合与分析正成为揭示细胞异质性与功能多样性的关键途径。paupaiz/Bone_Marrow_BMMCs数据集由Burkhardt DB、Lücken MD等研究人员于2021年联合创建,旨在为单细胞多组学数据提供基准测试平台。该数据集采集自12名健康人类捐赠者的骨髓单核细胞,整合了基因表达、染色质可及性与蛋白质丰度等多层遗传信息,其核心研究问题聚焦于利用多模态测量技术克服单细胞数据中缺乏真实标注的困境,为机器学习方法在生物系统中的应用奠定基础。该数据集的发布显著推动了单细胞多组学数据整合领域的发展,为跨模态预测、特征匹配与联合嵌入学习等任务提供了标准化评估框架。
当前挑战
该数据集致力于解决单细胞多组学数据整合中的核心挑战,包括跨模态信息对齐、噪声数据下的特征提取以及多层生物信息的协同建模。在构建过程中,研究人员面临多重技术难题:单细胞数据的固有噪声与稀疏性要求精细的质量控制流程,例如通过线粒体含量、UMI计数等指标过滤低质量细胞;多模态数据的异质性使得标准化与预处理策略复杂化,如基因表达数据的对数归一化与ATAC数据的二值化处理;此外,样本来自不同捐赠者与测量站点,引入了批次效应与生物变异,需通过嵌套实验设计平衡技术偏差与生物学真实性。这些挑战共同凸显了单细胞多组学数据整合在方法学与计算层面的复杂性。
常用场景
经典使用场景
在单细胞多组学领域,该数据集作为基准测试资源,为机器学习方法开发提供了关键支持。其经典应用场景在于多模态数据整合,研究者利用同一细胞中同时测量的基因表达和染色质可及性数据,构建跨模态预测模型,验证算法在噪声环境下的鲁棒性。这种设计模拟了生物系统中遗传信息的协同调控机制,为理解细胞异质性奠定了数据基础。
实际应用
在实际应用中,该数据集支撑了精准医疗和疾病机制探索。临床研究人员可借助其多模态特征,识别血液系统疾病的生物标志物,例如通过染色质开放状态与基因表达关联分析,揭示白血病等疾病的表观遗传调控异常。同时,制药行业可利用该数据模拟药物对细胞状态的影响,加速靶向治疗方案的开发进程。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多模态整合算法创新。例如,NeurIPS 2021基准竞赛催生了多种跨模态预测架构,如基于变分自编码器的联合嵌入模型。后续研究进一步拓展至迁移学习领域,利用该数据预训练模型,提升对稀缺疾病数据的泛化能力。这些工作共同推动了单细胞计算生物学方法学的标准化发展。
以上内容由遇见数据集搜集并总结生成



