scref_ICLR_2025

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/Phenomic-AI/scref_ICLR_2025

下载链接

链接失效反馈

官方服务：

资源简介：

scREF数据集是一个包含来自46个研究的人类单细胞RNA测序数据集，旨在为单细胞RNA对齐方法的基准测试和优化提供标准化的数据。数据集以zarr格式存储，便于在Python中使用Dask + Zarr加载为AnnData对象。细胞元数据提供了细胞标识、类型注释、样本信息以及是否用于训练和基准分析等信息。

创建时间：

2025-05-21

原始信息汇总

scREF 数据集概述

基本信息

许可证: MIT
标签: 生物学、单细胞、深度神经网络、基准测试
数据集名称: scREF, all cells

数据集描述

内容: 包含来自46项研究的人类单细胞RNA测序（scRNA-seq）数据，由Diaz-Mejia JJ等人（2025）标准化。
目的: 用于论文《Benchmarking and optimizing organism wide single-cell RNA alignment methods》，发表于国际学习表征会议（ICLR 2025）的LMRL研讨会。

数据格式与结构

数据存储格式: zarr格式，位于Phenomic-AI/scref_ICLR_2025/zarr文件夹中。
子文件夹命名规则: {第一作者姓氏}_{期刊}_{年份}_{PubMed ID}。
加载方法: 可通过Dask + Zarr加载为Python中的AnnData对象。

元数据信息

细胞元数据:
- barcode: 唯一细胞标识符
- authors_celltype: 原始作者细胞类型注释
- standard_true_celltype: 跨研究标准化的细胞类型注释
- sample_name: 唯一样本标识符
- tissue_collected: 样本采集的组织
- included_scref_train: 布尔值，指示细胞是否包含在下采样的训练和基准分析中。

相关资源

代码: Batch Adversarially trained single-cell Variational Inference (BA-scVI)的计算代码可在GitHub获取。

搜集汇总

数据集介绍

构建方式

在单细胞转录组学快速发展的背景下，scREF数据集通过整合46项独立研究的scRNA-seq数据构建而成。Diaz-Mejia JJ团队采用标准化流程对原始数据进行统一处理，以zarr格式存储每个研究的数据文件，文件命名采用'第一作者姓氏_期刊_年份_PubMedID'的规范结构。该数据集特别标注了包含训练集的细胞子集，为后续算法开发提供可靠基准。

特点

作为跨研究整合的单细胞参考数据集，scREF的突出价值体现在多维度的标准化注释体系。数据集不仅保留原始研究者提供的细胞类型标注，更通过统一标准重构了'standard_true_celltype'字段，实现跨研究细胞类型的可比性。每个细胞均附带组织来源、样本标识等元信息，其zarr格式设计兼顾存储效率与Dask并行计算需求，为大规模单细胞分析提供基础设施支持。

使用方法

研究者可通过Python生态中的AnnData接口加载zarr格式数据，利用Dask实现分布式计算。数据集内置的细胞筛选标记'included_scref_train'便于快速构建训练子集。配套提供的BA-scVI算法实现可从GitHub获取，用户可基于该框架开展单细胞数据对齐方法的基准测试，或开发新的跨研究整合算法。组织来源字段支持特定组织的靶向分析，标准化细胞类型标签则为跨数据集比较研究奠定基础。

背景与挑战

背景概述

scREF数据集由Diaz-Mejia JJ等研究人员于2025年构建，旨在为单细胞RNA测序（scRNA-seq）数据分析领域提供标准化的基准测试工具。该数据集整合了来自46项独立研究的人类单细胞转录组数据，通过统一的注释体系和数据格式，解决了跨研究数据可比性的核心问题。作为国际学习表征会议（ICLR 2025）LMRL研讨会的成果，其创新性地采用zarr格式存储标准化数据，并配套开发了BA-scVI算法，显著推动了单细胞数据整合与分析方法的发展。

当前挑战

该数据集面临的主要挑战体现在两个维度：在科学层面，单细胞数据的固有异质性使得跨研究细胞类型标准化注释成为难题，不同实验室采用的实验协议与生物样本差异导致数据整合困难；在技术层面，大规模单细胞数据集的高维稀疏特性对存储格式与计算效率提出严峻考验，需要开发新型数据压缩方法。数据集构建过程中还需克服原始数据质量参差不齐、元数据缺失等实际问题，这些挑战共同构成了单细胞组学基准测试的关键瓶颈。

常用场景

经典使用场景

在单细胞转录组学领域，scREF数据集作为跨研究标准化的基准数据集，被广泛用于评估单细胞RNA测序数据对齐方法的性能。研究者通过该数据集对比不同算法在细胞类型注释、批次效应校正等方面的表现，为方法优化提供客观依据。其标准化的细胞类型注释体系尤其适合作为金标准，验证新型细胞聚类算法的准确性。

衍生相关工作

基于scREF数据集衍生的BA-scVI算法已成为单细胞数据分析的重要工具，该算法通过对抗训练优化变分推断，显著提升了跨数据集整合的准确性。多项研究以此为基础开发了改进模型，如scANVI和totalVI等，推动了单细胞多组学整合分析方法的快速发展。这些工作共同构成了单细胞计算生物学领域的方法学基石。

数据集最近研究