five

paupaiz/Bone_Marrow_BMMCs|单细胞生物学数据集|多组学数据数据集

收藏
hugging_face2024-02-02 更新2024-03-04 收录
单细胞生物学
多组学数据
下载链接:
https://hf-mirror.com/datasets/paupaiz/Bone_Marrow_BMMCs
下载链接
链接失效反馈
资源简介:
该数据集包含从12名健康人类捐赠者的骨髓单核细胞中收集的单细胞多组学数据,旨在为多模态单细胞数据集成提供一个基准测试平台。数据集涵盖了基因表达、染色质可及性和蛋白质丰度等多种数据类型,并经过了详细的数据收集、预处理和质量控制步骤。数据集的创建过程包括使用10X Genomics单细胞多组学ATAC + 基因表达试剂盒进行单核RNA和染色质可及性的联合分析。预处理步骤包括去除低质量细胞和双细胞,并对基因表达、染色质可及性和蛋白质丰度数据进行了标准化和转换。数据集的结构包括训练数据存储在AnnData h5ad文件中,并且设计了一个嵌套的批次布局,使得一些捐赠者样本在多个站点进行测量。数据集的注释过程由多位专家完成,并提供了详细的元数据信息。

该数据集包含从12名健康人类捐赠者的骨髓单核细胞中收集的单细胞多组学数据,旨在为多模态单细胞数据集成提供一个基准测试平台。数据集涵盖了基因表达、染色质可及性和蛋白质丰度等多种数据类型,并经过了详细的数据收集、预处理和质量控制步骤。数据集的创建过程包括使用10X Genomics单细胞多组学ATAC + 基因表达试剂盒进行单核RNA和染色质可及性的联合分析。预处理步骤包括去除低质量细胞和双细胞,并对基因表达、染色质可及性和蛋白质丰度数据进行了标准化和转换。数据集的结构包括训练数据存储在AnnData h5ad文件中,并且设计了一个嵌套的批次布局,使得一些捐赠者样本在多个站点进行测量。数据集的注释过程由多位专家完成,并提供了详细的元数据信息。
提供机构:
paupaiz
原始信息汇总

数据集卡片:骨髓单细胞多组学数据集

数据集概述

从12名健康人类供体的骨髓单核细胞中收集的单细胞多组学数据。

数据集详情

数据集描述

该研究设计如下:

  • Multiome

    • 站点1:供体1, 2, 3
    • 站点2:供体1, 4, 5
    • 站点3:供体3, 6, 7, 10
    • 站点4:供体1, 8, 9
  • 数据集由以下人员策划: Burkhardt DB, Lücken MD, Lance C, Cannoodt R, Pisco AO, Krishnaswamy S, Theis FJ, Bloom JM

  • 许可证: MIT

数据集来源

  • 仓库: https://github.com/openproblems-bio
  • 论文: https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/158f3069a435b314a80bdcb024f8e422-Abstract-round2.html

用途

该数据集旨在用于多模态单细胞数据整合的基准测试,包括模态预测、不同模态的匹配配置文件以及从多个模态学习联合嵌入。

数据集结构

训练数据以AnnData h5ad文件形式提供。数据集设计为嵌套批次布局,某些供体样本在多个站点进行测量,某些供体在单个站点进行测量。

数据收集和处理

基因表达(GEX)预处理

  • 细胞根据线粒体含量、每个细胞的UMI计数和检测到的基因进行过滤。
  • 使用scran计算大小因子,并存储在adata.obs["size_factors"]中。
  • UMI计数按大小因子进行归一化,原始计数存储在adata.layers["counts"]中,归一化计数存储在adata.X中。
  • 归一化计数进行log1p变换,存储在adata.layers["log_norm"]中。

染色质可及性(ATAC)预处理

  • 使用Signac处理ATAC-seq数据,进行质量控制、降维和将峰转换为基因活性得分。
  • 峰-细胞矩阵计数二值化,仅表示每个区域的可达性状态。
  • 细胞根据5个质量控制指标进行过滤。
  • 数据二值化,所有值>0设置为1,存储在adata.X中,原始UMI计数存储在adata.layers["counts"]中。

蛋白质丰度(ADT)预处理

  • 使用TotalSeq™-B Human Universal Cocktail, V1.0测量134种细胞表面标记和6种同型控制。
  • 同型控制存储在adata.obsm["isotype_controls"]中。
  • ADT蛋白测量进行质量控制,并使用中心对数比(CLR)变换进行归一化,CLR计数存储在adata.X中,原始计数存储在adata.layers["counts"]中。

注释过程

元数据

  • 基因表达观察元数据

    • .obs.index:带有批次标签的细胞条形码。
    • .obs["n_genes_by_counts"]:细胞中至少有1个计数的基因数。
    • .obs["pct_counts_mt"]:映射到线粒体基因的UMI计数百分比。
    • .obs["n_counts"]:细胞中检测到的UMI数。
    • .obs["n_genes"]:细胞中检测到的基因数。
    • .obs["size_factors"]:细胞的估计大小因子。
    • .obs["phase"]:细胞周期阶段,由scanpy.tl.score_genes_cell_cycle计算。
    • .obs["leiden_final"]:
    • .obs["atac_ann"]:来自联合ATAC数据的细胞类型注释。
    • .obs["cell_type"]:来自GEX数据的细胞类型注释。
    • .obs["pseudotime_order_GEX"]:数据中注释的发育轨迹的扩散伪时间注释。
    • .obs["batch"]:细胞采样的批次,格式为s1d1(站点1供体1)。
  • 基因表达特征元数据

    • .var.index:每个基因的Ensembl基因名称。
    • .var["gene_ids"]:用于唯一跟踪基因的Ensembl稳定ID。
    • .var["feature_types"]:表示每个特征为基因表达特征,应为GEX。
    • .var["genome"]:用于读取映射的基因组组装。
    • .var["n_cells-[batch]"]:在[batch]中检测到基因的细胞数。
    • .var["highly_variable-[batch]"]:在[batch]中是否确定为高度可变的基因。
  • ATAC观察元数据

    • .obs.index:带有批次标签的细胞条形码。
    • .obs["nCount_peaks"]:细胞中检测到的峰数。
    • .obs["atac_fragments"]:细胞中的UMI计数(在峰内和峰外)。
    • .obs["reads_in_peaks_frac"]:峰内UMI的分数。
    • .obs["blacklist_fraction"]:Encode黑名单区域中UMI的分数。
    • .obs["nucleosome_signal"]:核小体信号,描述片段长度分布,预期遵循跨越一个或多个核小体所需的DNA长度。
    • .obs["phase"]:细胞周期阶段,由scanpy.tl.score_genes_cell_cycle计算。
    • .obs["leiden_final"]:
    • .obs["rna_ann"]:来自联合RNA数据的细胞类型注释。
    • .obs["cell_type"]:来自ATAC数据的细胞类型注释。
    • .obs["pseudotime_order_ATAC"]:数据中注释的发育轨迹的扩散伪时间注释。
    • .obs["batch"]:细胞采样的批次,格式为s1d1(站点1供体1)。
  • ATAC特征元数据

    • .var.index:每个ATAC峰的基因组坐标,直接与参考基因组相关,格式为chr1-1234570-1234870。
    • .var["feature_types"]:表示每个特征为基因表达特征,应为ATAC。
    • .var["n_cells-[batch]"]:在[batch]中检测到峰的细胞数。

潜在偏差

细胞类型识别和双峰去除已经完成。供体年龄(22 - 40岁)、性别和种族各异(详细信息见相关数据表)。

注释者

Burkhardt DB, Lücken MD, Lance C, Cannoodt R, Pisco AO, Krishnaswamy S, Theis FJ, Bloom JM

引用

https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/158f3069a435b314a80bdcb024f8e422-Abstract-round2.html

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录