paupaiz/Bone_Marrow_BMMCs|单细胞生物学数据集|多组学数据数据集
收藏数据集卡片:骨髓单细胞多组学数据集
数据集概述
从12名健康人类供体的骨髓单核细胞中收集的单细胞多组学数据。
数据集详情
数据集描述
该研究设计如下:
-
Multiome
- 站点1:供体1, 2, 3
- 站点2:供体1, 4, 5
- 站点3:供体3, 6, 7, 10
- 站点4:供体1, 8, 9
-
数据集由以下人员策划: Burkhardt DB, Lücken MD, Lance C, Cannoodt R, Pisco AO, Krishnaswamy S, Theis FJ, Bloom JM
-
许可证: MIT
数据集来源
- 仓库: https://github.com/openproblems-bio
- 论文: https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/158f3069a435b314a80bdcb024f8e422-Abstract-round2.html
用途
该数据集旨在用于多模态单细胞数据整合的基准测试,包括模态预测、不同模态的匹配配置文件以及从多个模态学习联合嵌入。
数据集结构
训练数据以AnnData h5ad文件形式提供。数据集设计为嵌套批次布局,某些供体样本在多个站点进行测量,某些供体在单个站点进行测量。
数据收集和处理
基因表达(GEX)预处理
- 细胞根据线粒体含量、每个细胞的UMI计数和检测到的基因进行过滤。
- 使用scran计算大小因子,并存储在adata.obs["size_factors"]中。
- UMI计数按大小因子进行归一化,原始计数存储在adata.layers["counts"]中,归一化计数存储在adata.X中。
- 归一化计数进行log1p变换,存储在adata.layers["log_norm"]中。
染色质可及性(ATAC)预处理
- 使用Signac处理ATAC-seq数据,进行质量控制、降维和将峰转换为基因活性得分。
- 峰-细胞矩阵计数二值化,仅表示每个区域的可达性状态。
- 细胞根据5个质量控制指标进行过滤。
- 数据二值化,所有值>0设置为1,存储在adata.X中,原始UMI计数存储在adata.layers["counts"]中。
蛋白质丰度(ADT)预处理
- 使用TotalSeq™-B Human Universal Cocktail, V1.0测量134种细胞表面标记和6种同型控制。
- 同型控制存储在adata.obsm["isotype_controls"]中。
- ADT蛋白测量进行质量控制,并使用中心对数比(CLR)变换进行归一化,CLR计数存储在adata.X中,原始计数存储在adata.layers["counts"]中。
注释过程
元数据
-
基因表达观察元数据
- .obs.index:带有批次标签的细胞条形码。
- .obs["n_genes_by_counts"]:细胞中至少有1个计数的基因数。
- .obs["pct_counts_mt"]:映射到线粒体基因的UMI计数百分比。
- .obs["n_counts"]:细胞中检测到的UMI数。
- .obs["n_genes"]:细胞中检测到的基因数。
- .obs["size_factors"]:细胞的估计大小因子。
- .obs["phase"]:细胞周期阶段,由scanpy.tl.score_genes_cell_cycle计算。
- .obs["leiden_final"]:
- .obs["atac_ann"]:来自联合ATAC数据的细胞类型注释。
- .obs["cell_type"]:来自GEX数据的细胞类型注释。
- .obs["pseudotime_order_GEX"]:数据中注释的发育轨迹的扩散伪时间注释。
- .obs["batch"]:细胞采样的批次,格式为s1d1(站点1供体1)。
-
基因表达特征元数据
- .var.index:每个基因的Ensembl基因名称。
- .var["gene_ids"]:用于唯一跟踪基因的Ensembl稳定ID。
- .var["feature_types"]:表示每个特征为基因表达特征,应为GEX。
- .var["genome"]:用于读取映射的基因组组装。
- .var["n_cells-[batch]"]:在[batch]中检测到基因的细胞数。
- .var["highly_variable-[batch]"]:在[batch]中是否确定为高度可变的基因。
-
ATAC观察元数据
- .obs.index:带有批次标签的细胞条形码。
- .obs["nCount_peaks"]:细胞中检测到的峰数。
- .obs["atac_fragments"]:细胞中的UMI计数(在峰内和峰外)。
- .obs["reads_in_peaks_frac"]:峰内UMI的分数。
- .obs["blacklist_fraction"]:Encode黑名单区域中UMI的分数。
- .obs["nucleosome_signal"]:核小体信号,描述片段长度分布,预期遵循跨越一个或多个核小体所需的DNA长度。
- .obs["phase"]:细胞周期阶段,由scanpy.tl.score_genes_cell_cycle计算。
- .obs["leiden_final"]:
- .obs["rna_ann"]:来自联合RNA数据的细胞类型注释。
- .obs["cell_type"]:来自ATAC数据的细胞类型注释。
- .obs["pseudotime_order_ATAC"]:数据中注释的发育轨迹的扩散伪时间注释。
- .obs["batch"]:细胞采样的批次,格式为s1d1(站点1供体1)。
-
ATAC特征元数据
- .var.index:每个ATAC峰的基因组坐标,直接与参考基因组相关,格式为chr1-1234570-1234870。
- .var["feature_types"]:表示每个特征为基因表达特征,应为ATAC。
- .var["n_cells-[batch]"]:在[batch]中检测到峰的细胞数。
潜在偏差
细胞类型识别和双峰去除已经完成。供体年龄(22 - 40岁)、性别和种族各异(详细信息见相关数据表)。
注释者
Burkhardt DB, Lücken MD, Lance C, Cannoodt R, Pisco AO, Krishnaswamy S, Theis FJ, Bloom JM
引用
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/158f3069a435b314a80bdcb024f8e422-Abstract-round2.html
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录