SpaRED

Name: SpaRED
Creator: 哥伦比亚安第斯大学人工智能研究中心
Published: 2025-05-06 03:17:29
License: 暂无描述

arXiv2025-05-06 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02980v1

下载链接

链接失效反馈

官方服务：

资源简介：

SpaRED是一个包含26个空间转录组数据集的预处理集合，涵盖了从9种不同组织类型的人类和小鼠样本。为了解决基因捕获不足导致的缺失问题，论文提出了SpaCKLE，一种基于transformer的基因表达完成模型，与现有方法相比，可以将均方误差减少82.5%。此外，SpaRED还建立了一个基准，评估了8种最先进的预测模型在原始和SpaCKLE完成数据上的性能，证明SpaCKLE显著提高了所有测试模型的基因表达预测性能。

SpaRED is a preprocessed collection of 26 spatial transcriptomics datasets, covering human and mouse samples from 9 distinct tissue types. To address the missing value issue caused by insufficient gene capture, the paper proposes SpaCKLE, a Transformer-based gene expression imputation model, which reduces the mean squared error by 82.5% compared to existing methods. Additionally, SpaRED establishes a benchmark that evaluates the performance of 8 state-of-the-art prediction models on both raw and SpaCKLE-imputed data, demonstrating that SpaCKLE significantly improves the gene expression prediction performance of all tested models.

提供机构：

哥伦比亚安第斯大学人工智能研究中心

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

在空间转录组学技术快速发展的背景下，SpaRED数据集的构建采用了系统化的数据收集与标准化流程。研究团队整合了来自7篇独立文献和10X Genomics的5个演示数据集，经过严格筛选后形成26个标准化数据集，涵盖人类和小鼠的9种组织类型。数据处理流程分为过滤和处理两个阶段：通过设置细胞计数阈值和基因表达阈值进行初步筛选，随后采用TPM标准化和log2(x+1)转换进行数据归一化。为增强数据的空间自相关性，研究团队计算了Moran's I指数并保留得分最高的128或32个基因，最终应用ComBat算法消除批次效应，确保了数据的高质量和可比性。

特点

SpaRED数据集作为空间转录组学领域的重要资源，其最显著的特点在于全面性和标准化。该数据集包含105张组织切片和308,843个检测点，覆盖了健康与病理状态下的多种组织类型。通过严格的预处理流程，数据缺失率从平均89%降至28%，极大提升了数据的可靠性。此外，数据集专门设计了患者内和患者间两种泛化任务，为模型评估提供了多样化的测试场景。配套提供的SpaCKLE基因补全模型进一步增强了数据集的实用性，其基于Transformer的架构在基因表达补全任务中实现了82.5%的MSE降低，为相关研究提供了高质量的基准数据。

使用方法

SpaRED数据集为基因表达预测研究提供了标准化的评估平台。使用者可通过配套的Python库便捷地访问原始数据和经SpaCKLE补全的数据，支持多种深度学习框架的直接调用。在具体应用中，研究者可基于数据集提供的训练-验证-测试划分方案进行模型开发，特别建议将SpaCKLE作为预处理步骤以提升预测性能。数据集支持两种典型的应用场景：一是直接使用原始数据进行端到端的基因表达预测模型训练；二是先通过SpaCKLE补全缺失值，再基于完整数据构建预测模型。评估指标推荐同时采用MSE和PCC，以全面衡量模型的预测准确性和线性相关性。

背景与挑战

背景概述

SpaRED（Spatially Resolved Expression Database）是由哥伦比亚洛斯安第斯大学人工智能研究中心于2025年提出的空间转录组学标准化数据库。该数据库系统性地整合了26个公开的Visium技术生成的数据集，涵盖人类和小鼠9种组织类型，包含308,843个空间位点的基因表达数据。作为首个针对组织学图像基因表达预测任务设计的基准数据库，SpaRED解决了该领域长期存在的因数据预处理差异导致的模型评估不一致问题。其创新性地结合了Transformer架构的SpaCKLE基因补全模型，将缺失值补全的均方误差降低了82.5%，为空间转录组学在疾病研究、发育生物学等领域的应用提供了标准化评估框架。

当前挑战

空间转录组学领域面临两个核心挑战：在科学问题层面，Visium技术固有的基因捕获丢失现象（dropout）导致表达谱数据存在89%的缺失率，严重影响下游分析可靠性；在数据集构建层面，原始数据存在批次效应显著、组织切片间异质性高、不同研究机构数据质量标准不统一等技术障碍。SpaRED通过开发基于自注意力机制的SpaCKLE补全模型，采用莫兰基因筛选和ComBat批次校正等生物信息学策略，有效解决了空间自相关基因识别、跨数据集标准化等关键技术难题。值得注意的是，基准测试揭示现有预测模型在标准化数据上的性能差异不显著（p>0.05），凸显了该领域算法创新的迫切需求。

常用场景

实际应用

在实际应用中，SpaRED数据集为医学研究和临床诊断提供了重要支持。例如，在癌症研究中，研究者可以利用该数据集预测肿瘤组织的基因表达谱，从而更深入地理解肿瘤的分子机制。此外，SpaRED的标准化流程和高质量数据也为再生医学和发育生物学研究提供了有力工具，帮助科学家探索组织形成和细胞分化的空间模式。

衍生相关工作

SpaRED数据集衍生了一系列经典工作，特别是在基因表达预测和补全领域。例如，基于该数据集的SpaCKLE方法在缺失值补全任务中表现出色，成为后续研究的基准。此外，SpaRED还被用于评估多种深度学习模型（如HisToGene、STNet等）的性能，推动了空间转录组学分析方法的创新和发展。这些工作不仅验证了SpaRED的实用性，也为该领域的未来研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集