scMARK and scREF

Name: scMARK and scREF
Creator: Phenomic AI Inc.
Published: 2025-03-27 01:11:47
License: 暂无描述

arXiv2025-03-27 更新2025-03-28 收录

下载链接：

http://arxiv.org/abs/2503.20730v1

下载链接

链接失效反馈

官方服务：

资源简介：

scMARK是一个由11个高质量scRNA出版物组成的小型基准数据集，每个研究随机选取了10,000个细胞样本，包含了29个在两个或以上研究中出现的标准化细胞类型标签和13,865个基因。scREF是一个包含46个人类scRNA研究的大型基准数据集，跨越2,359个样本和36种组织，经过质量检查和元数据标准化处理。这两个数据集旨在用于评估和优化单细胞RNA对齐方法。

scMARK is a small benchmark dataset composed of 11 high-quality scRNA-seq studies. Each of these 11 studies randomly selected 10,000 cell samples, and the dataset encompasses 29 standardized cell type labels that appear in two or more studies, as well as 13,865 genes. scREF is a large benchmark dataset consisting of 46 human scRNA-seq studies, spanning 2,359 samples and 36 tissue types, which has undergone quality control and metadata standardization. These two datasets are designed for the evaluation and optimization of single-cell RNA alignment methods.

提供机构：

Phenomic AI Inc.

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

scMARK和scREF数据集的构建基于精心挑选的人类单细胞RNA测序研究，分别包含11项和46项研究。这些研究涵盖了多种组织类型和技术平台，确保了数据的多样性和广泛性。数据预处理包括质量控制、基因标识标准化以及细胞类型标签的统一化，以消除批次效应和技术差异。通过采用K-最近邻交叉（KNI）评分作为评估标准，该数据集为单细胞RNA数据的跨数据集对齐提供了可靠的基准。

特点

scMARK和scREF数据集的主要特点在于其规模化和标准化。scMARK作为小型基准数据集，专注于特定组织类型的跨研究对齐，而scREF则作为大型基准数据集，涵盖了更广泛的器官和技术平台。两者均提供了标准化的作者标签，便于评估不同对齐方法的性能。此外，数据集还包含了多种技术平台（如10X Chromium、inDrop等）的数据，为研究技术差异对数据对齐的影响提供了丰富资源。

使用方法

scMARK和scREF数据集的使用方法主要包括数据对齐和性能评估。研究人员可以利用这些数据集来测试和优化单细胞RNA数据的对齐方法，如主成分分析（PCA）、Harmony、scVI及其变体BA-scVI等。通过计算KNI评分，可以量化对齐方法在去除批次效应和保留细胞类型信息方面的表现。此外，数据集还可用于验证新开发的对齐算法，并支持生物学家在单细胞水平上进行跨研究比较和细胞类型发现。

背景与挑战

背景概述

scMARK和scREF数据集是由Phenomic AI Inc.的研究团队在2025年提出的，旨在为单细胞RNA测序（scRNA-seq）数据的跨数据集对齐提供标准化基准。这些数据集的创建是为了解决单细胞转录组学领域中的一个核心问题：如何有效地整合来自不同实验室、不同技术平台和不同组织的scRNA-seq数据，以构建全面的细胞类型图谱。scMARK包含11项人类scRNA研究，而scREF则包含46项研究，涵盖了多种组织类型和技术平台。这些数据集的推出，为评估和优化scRNA数据对齐方法提供了重要的资源，推动了单细胞生物学和计算生物学的发展。

当前挑战

scMARK和scREF数据集面临的挑战主要包括两个方面：首先，在领域问题方面，这些数据集旨在解决scRNA-seq数据中的批次效应和跨数据集细胞类型预测的准确性，这是一个复杂的问题，因为不同数据集之间的技术差异和生物异质性会显著影响数据的可比性。其次，在构建过程中，研究人员需要处理来自不同来源的数据的标准化问题，包括细胞类型标签的统一、基因标识的匹配以及数据质量的严格控制。此外，评估模型性能时，如何设计一个既能惩罚批次效应又能准确预测细胞类型的单一度量标准（如KNI分数）也是一个重要的挑战。

常用场景

经典使用场景

在单细胞RNA测序（scRNA-seq）数据分析领域，scMARK和scREF数据集被广泛应用于评估和优化跨数据集单细胞RNA整合方法。这些数据集通过提供标准化的作者标签和精心策划的基准，为研究人员提供了一个可靠的平台来比较不同方法的性能。特别是在构建全面的生物体范围细胞类型图谱时，这些数据集能够帮助识别和消除批次效应，确保数据的准确性和一致性。

衍生相关工作

scMARK和scREF数据集的推出催生了一系列相关研究和方法改进。例如，基于这些数据集，研究人员开发了Batch Adversarial single-cell Variational Inference (BA-scVI)方法，该方法通过对抗训练进一步优化了批次效应的消除。此外，这些数据集还促进了无监督学习方法的发展，如scBERT、Celltypist和SATURN等模型，这些模型在细胞类型预测和数据集整合方面表现出色。这些衍生工作不仅推动了单细胞RNA测序技术的进步，还为生物医学研究提供了新的工具和资源。

数据集最近研究