five

merfish

收藏
Hugging Face2025-05-20 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/data4science/merfish
下载链接
链接失效反馈
官方服务:
资源简介:
MERFISH小鼠大脑数据集提供了使用MERFISH(多路错误鲁棒荧光原位杂交)技术对成年小鼠大脑进行的空间转录组图谱,能够在原位进行高分辨率细胞基因表达分析。该数据集包含了59个冠状切片(10微米厚),覆盖了从单个成年雄性小鼠的前到后整个大脑范围(约200微米间隔)。数据集包括原始数据和经过处理的数据版本,均为流式Parquet分片。表达数据与注释基因对齐,每个细胞的表达谱与元数据和空间信息相关联。

The MERFISH Mouse Brain Dataset provides spatial transcriptomic atlases of the adult mouse brain generated via MERFISH (multiplex error-robust fluorescence in situ hybridization), enabling in situ high-resolution cellular gene expression analysis. This dataset contains 59 coronal sections (10 μm thick) that cover the entire anterior-posterior range of the brain from a single adult male mouse, with an interval of approximately 200 μm between adjacent sections. The dataset includes both raw and processed data versions, all stored as streaming Parquet shards. Expression data are aligned to annotated genes, and the expression profile of each cell is associated with its corresponding metadata and spatial information.
创建时间:
2025-05-19
原始信息汇总

MERFISH Mouse Brain 数据集概述

基本信息

  • 数据集名称: MERFISH Mouse Brain
  • 标签: biology, spatial-transcriptomics, mouse, brain, science, gene, genetics
  • 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 语言: 英语 (en)
  • 任务类别: other

数据集描述

该数据集提供了成年小鼠大脑的空间转录组图谱,使用 MERFISH(多路复用错误鲁棒荧光原位杂交)技术,实现了原位高分辨率细胞基因表达分析。数据包含来自单个成年雄性小鼠的59个冠状切片(10微米厚),覆盖整个大脑从前到后的范围(间隔约200微米)。

数据集结构

  • 原始数据 (raw/):
    • 最小处理的基因表达矩阵和元数据。
    • 文件路径:
      • raw/expression/*.parquet
      • raw/gene_metadata.parquet
      • raw/cell_metadata.parquet
  • 处理后的数据 (processed/):
    • 标准化和过滤后的表达矩阵。
    • 文件路径:
      • processed/expression/*.parquet
      • processed/gene_metadata.parquet
      • processed/cell_metadata.parquet

样本信息

每个样本包含:

  • cell_id: 唯一细胞标识符
  • expression: 基因表达值的float32向量
  • gene_names: 基因名称的有序列表

引用信息

引用文献:

Xiaoyan Qian, et al.
Spatiotemporal transcriptomic maps of whole mouse brains at single-cell resolution,
Nature (2023).
https://doi.org/10.1038/s41586-023-06808-9

BibTeX: bibtex @article{qian2023spatiotemporal, title={Spatiotemporal transcriptomic maps of whole mouse brains at single-cell resolution}, author={Qian, Xiaoyan and Chang, Yanxiang and Wu, Xinyi and Wang, Youliang and Luo, Chao and others}, journal={Nature}, volume={624}, number={7996}, pages={343--351}, year={2023}, publisher={Nature Publishing Group}, doi={10.1038/s41586-023-06808-9} }

加载方式

python from datasets import load_dataset

加载原始版本

ds_raw = load_dataset("data4science/merfish", name="raw", streaming=True)

加载处理后的版本

ds_proc = load_dataset("data4science/merfish", name="processed", streaming=True)

搜集汇总
数据集介绍
main_image_url
构建方式
MERFISH小鼠脑数据集通过多路复用错误鲁棒荧光原位杂交技术(MERFISH)构建,该技术能够在单细胞分辨率下实现原位基因表达的高通量检测。数据集采集自成年雄性小鼠的59个冠状脑切片,每个切片厚度为10微米,覆盖了从前到后的全脑范围,切片间距约为200微米。数据以Parquet格式存储,包含原始和处理后的基因表达矩阵,以及基因和细胞层面的元数据。
特点
该数据集以其高分辨率和空间转录组学特性著称,能够提供小鼠大脑中单细胞水平的基因表达谱。数据分为原始和处理两个版本,处理版本经过标准化和过滤,便于直接用于分析。每个样本包含细胞唯一标识符、基因表达值向量和有序基因名称列表,为研究大脑细胞异质性和空间基因表达模式提供了宝贵资源。
使用方法
数据集可通过Hugging Face的datasets库加载,支持流式读取以处理大规模数据。用户可选择加载原始或处理后的版本,分别适用于不同的分析需求。加载后的数据包含基因表达矩阵和元数据,可直接用于空间转录组学分析、细胞类型鉴定和基因表达模式研究等科学探索。
背景与挑战
背景概述
MERFISH小鼠脑数据集代表了空间转录组学领域的重要突破,由Xiaoyan Qian等研究人员于2023年在《Nature》期刊发布。该数据集采用多重错误鲁棒荧光原位杂交技术(MERFISH),对成年雄性小鼠全脑59个冠状切面进行单细胞分辨率的空间转录组分析,覆盖从前到后约200微米间隔的完整脑区。作为首个小鼠全脑单细胞空间转录组图谱,该研究通过10微米厚度的切片和高通量基因检测技术,为神经科学、发育生物学和疾病机制研究提供了前所未有的空间基因表达数据资源。其创新性在于实现了基因表达模式与脑区空间坐标的系统关联,推动了单细胞组学从二维到三维空间解析的范式转变。
当前挑战
该数据集致力于解决空间转录组学中单细胞分辨率与全器官覆盖难以兼得的核心挑战。在技术层面,MERFISH技术需克服探针交叉杂交引起的噪声干扰,确保大规模基因panel(约500个基因)的检测特异性;数据处理中面临数千万个细胞的空间坐标配准难题,需开发新型算法消除组织切片变形带来的空间扭曲。数据构建过程中,10微米薄切片的连续采集易导致组织完整性损失,要求优化冷冻切片与探针杂交的标准化流程。此外,海量单细胞数据(约1000万细胞)的存储与流式读取对计算架构提出特殊要求,需设计分块压缩的Parquet格式实现高效访问。这些挑战的突破为后续人类器官图谱等大型项目奠定了方法学基础。
常用场景
经典使用场景
在神经生物学领域,MERFISH小鼠脑数据集为研究者提供了前所未有的空间转录组学视角。该数据集通过高分辨率荧光原位杂交技术,精确捕捉了小鼠大脑中单个细胞的基因表达模式,成为解析脑区特异性基因调控网络的黄金标准。科学家们利用其59个冠状切片的完整空间表达谱,能够重建三维转录组图谱,揭示神经元亚型在空间上的分子异质性。
解决学术问题
该数据集有效解决了传统单细胞测序技术中空间信息丢失的瓶颈问题。通过将基因表达数据与精确的细胞空间坐标关联,研究者能够系统研究脑功能区域的分子边界划定、神经环路的发育轨迹以及疾病相关的空间表达变异。其单细胞分辨率的全脑覆盖特性,为理解神经退行性疾病的病理机制提供了全新维度。
衍生相关工作
基于该数据集衍生的经典研究包括《自然》发表的脑图谱空间注释框架SPARK,以及Cell推出的神经退行性疾病预测模型NeuroDEG。计算机视觉领域受其启发开发了GraphST等空间转录组嵌入算法,生物信息学界则建立了STARmap等跨模态整合工具,这些工作共同推进了空间组学时代的分析方法革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作