five

SpatialHuman30M

收藏
github2025-02-13 更新2025-02-14 收录
下载链接:
https://github.com/bowang-lab/scGPT-spatial
下载链接
链接失效反馈
官方服务:
资源简介:
用于单细胞基础模型在空间转录组学中的持续预训练的300万个细胞/spot的数据集。

A dataset of 3 million cells/spots for continuous pre-training of single-cell foundation models in spatial transcriptomics
创建时间:
2025-02-04
原始信息汇总

scGPT-spatial 数据集概述

数据集简介

  • 名称:scGPT-spatial
  • 描述:用于空间转录组学的单细胞基础模型的持续预训练

关键特性

  • 模型类型:空间-omic基础模型
  • 预训练数据量:30百万细胞/斑点
  • 特点
    • 新型MoE(混合专家)解码器
    • 空间感知采样
    • 基于邻域的重构目标
    • 空间Human30M语料库的整理
    • Visium, Visium HD, Xenium, MERFISH等多模态和多切片整合
    • 细胞类型反卷积
    • 缺失基因插补

模型权重

数据源

  • 数据集名称:SpatialHuman30M
  • 数据源信息数据源表格
  • 数据获取:处理后数据将在原数据源许可下,出版后提供

设置与教程

预印本与引用

  • 预印本链接bioRxiv
  • 引用信息: bibtex @article{wang2025scgpt, title={scGPT-spatial: Continual Pretraining of Single-Cell Foundation Model for Spatial Transcriptomics}, author={Wang, Chloe Xueqi and Cui, Haotian and Zhang, Andrew Hanzhuo and Xie, Ronald and Goodarzi, Hani and Wang, Bo}, journal={bioRxiv}, pages={2025--02}, year={2025}, publisher={Cold Spring Harbor Laboratory} }
搜集汇总
数据集介绍
main_image_url
构建方式
SpatialHuman30M数据集的构建基于对单细胞水平空间转录组学的深入研究,采用scGPT模型进行持续预训练,涵盖30百万个细胞/斑点。该数据集整合了多种空间组学技术,包括Visium、Visium HD、Xenium和MERFISH,实现了多模态和多切片数据的融合。
特点
该数据集具有显著的特点,包括创新的Mixture of Experts解码器、空间感知采样技术、基于邻域的重构目标函数,以及精心策划的SpatialHuman30M语料库。这些特点使得数据集在细胞类型解卷积和缺失基因插补等方面表现出色。
使用方法
使用SpatialHuman30M数据集前,需先克隆相关代码库,并遵循环境设置指南。数据集的预处理数据在获得原始数据源许可后,将于发表时提供。用户可以通过GitHub上的零样本推理教程来学习如何使用该数据集进行相关研究。
背景与挑战
背景概述
SpatialHuman30M数据集是构建于单细胞水平空间转录组学领域的重要数据资源,由Wang Bo领导的团队开发并于2025年发布预印本。该数据集以scGPT模型为基础,通过持续预训练,整合了30百万个细胞/斑点数据,旨在解决空间转录组学中的基础模型构建问题。其创新性地采用了MoE(混合专家)解码器,实现了空间感知抽样和基于邻域的重建目标,并在Visium、Visium HD、Xenium、MERFISH等多种平台上进行了多模态和多幻灯片整合,为细胞类型解卷积和缺失基因插值提供了有力支持。
当前挑战
在构建过程中,SpatialHuman30M数据集面临的挑战包括如何有效整合来自不同平台和技术的数据,以及如何设计适用于空间转录组学的深度学习模型。具体而言,数据集构建的挑战体现在数据的质量控制、标准化处理以及后续模型训练中的泛化能力。此外,该数据集在解决领域问题,如细胞类型识别和基因表达重建时,也面临着如何提高模型准确性和鲁棒性的挑战。
常用场景
经典使用场景
在单细胞空间转录组学领域,SpatialHuman30M数据集的经典使用场景主要在于其作为scGPT-spatial模型的预训练语料库。该数据集整合了多种空间转录组技术,如Visium、Visium HD、Xenium和MERFISH的数据,支持模型在空间基因表达数据的理解和生成任务上的性能提升。
解决学术问题
SpatialHuman30M数据集的构建解决了单细胞空间转录组学研究中数据量有限、模态间整合困难等问题。它通过大规模的预训练,使得模型能够更好地进行细胞类型解析和缺失基因插补,极大地推动了空间转录组数据分析的准确性和效率。
衍生相关工作
基于SpatialHuman30M数据集,已经衍生出一系列相关工作,包括新型混合专家解码器、空间感知抽样方法以及邻里重建目标等,这些都进一步扩展了单细胞空间转录组学的研究方法和工具箱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作