five

MiniAtlas

收藏
Hugging Face2025-02-10 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/MiniAtlas
下载链接
链接失效反馈
官方服务:
资源简介:
MiniAtlas数据集包含超过100,000个配对的scATAC-seq和scRNA-seq训练数据,涵盖19种组织和56种细胞类型,用于训练单细胞多组学基础模型。数据集分为四个子集,包括完整数据集以及针对不同组织的评估集。
提供机构:
UCSC-VLAA
创建时间:
2025-02-05
原始信息汇总

数据集概述

数据集名称

MiniAtlas

许可协议

Apache-2.0

简介

MiniAtlas 数据集包含超过100,000个配对的 scATAC-seq 和 scRNA-seq 训练数据,跨越19种组织和56种细胞类型,用于训练基础模型。该数据集可以用于训练单细胞多组学基础模型。

数据集概览

子集

数据集分为四个子集,以满足不同的研究需求和访问限制:

  1. full_atlas_atac.h5adfull_atlas_rna.h5ad (~120k 样本):MiniAtlas 的完整数据,包含所有组织和细胞类型。
  2. 不同组织的评估集:包含三种组织(肾脏、PBMC、BMMC),可用于细胞类型注释或RNA预测的微调和评估。

引用

如果您发现 MiniAtlas 对您的研究和应用有用,请使用以下 BibTeX 引用:

@article {Wu2025.02.05.636688, author = {Wu, Juncheng and Wan, Changxin and Ji, Zhicheng and Zhou, Yuyin and Hou, Wenpin}, title = {EpiFoundation: A Foundation Model for Single-Cell ATAC-seq via Peak-to-Gene Alignment}, elocation-id = {2025.02.05.636688}, year = {2025}, doi = {10.1101/2025.02.05.636688}, URL = {https://www.biorxiv.org/content/early/2025/02/08/2025.02.05.636688}, eprint = {https://www.biorxiv.org/content/early/2025/02/08/2025.02.05.636688.full.pdf}, journal = {bioRxiv} }

搜集汇总
数据集介绍
main_image_url
构建方式
MiniAtlas数据集的构建采取整合单细胞ATAC-seq与配对的单细胞RNA-seq数据的方法,涵盖19种组织和56种细胞类型,共计超过100,000个样本。该数据集的构建旨在为训练单细胞多组学基础模型提供高质量的训练资源。
特点
本数据集的主要特点是样本量大,数据类型全面,既包含了ATAC-seq数据,也包含了配对的RNA-seq数据,有助于研究者从表观遗传学和转录组学两个维度进行综合分析。此外,数据集划分为四个子集,以适应不同的研究需求和访问限制,其中包含特定组织的评估集,便于进行细胞类型注释或RNA预测的微调与评估。
使用方法
使用MiniAtlas数据集时,研究者可以根据需要选择相应的子集。数据集以H5AD格式存储,可以直接使用适用于单细胞多组学分析的软件工具进行读取和分析。对于模型训练,用户需要根据训练目标和数据集特点进行适当的预处理和模型调整,以充分利用该数据集的潜力。
背景与挑战
背景概述
在单细胞多组学研究领域,数据集的构建对于模型的训练与优化至关重要。MiniAtlas数据集,创建于2025年,由Wu Juncheng等研究人员提出,旨在为单细胞ATAC-seq与scRNA-seq的联合分析提供基础模型训练数据。该数据集涵盖了19种组织类型和56种细胞类型,包含超过10万个单细胞样本,为单细胞多组学基础模型的训练提供了丰富的资源,对促进该领域的研究发展具有重要意义。
当前挑战
MiniAtlas数据集在构建过程中面临了诸多挑战。首先,整合不同组织与细胞类型的单细胞多组学数据,需要解决数据预处理与标准化的问题。其次,数据集的大规模特性要求高效率的数据管理和存储解决方案。此外,在模型训练过程中,如何有效利用这些数据进行精确的细胞类型注释和RNA预测,是当前研究中的一个重要挑战。
常用场景
经典使用场景
在单细胞多组学领域,MiniAtlas数据集以其庞大的scATAC-seq与配对scRNA-seq训练数据,成为构建基础模型的宝贵资源。该数据集的经典使用场景在于训练单一细胞多组学基础模型,进而推动单细胞层面上的表观遗传学特征与基因表达之间的关联研究。
衍生相关工作
基于MiniAtlas数据集,已衍生出EpiFoundation模型等经典工作,这些研究不仅推动了单细胞多组学基础模型的发展,还为进一步探索细胞状态与功能的内在联系提供了新的视角和方法论。
数据集最近研究
最新研究方向
在单细胞多组学领域,MiniAtlas数据集以其丰富的100,000个以上的scATAC-seq与配对scRNA-seq训练数据,跨越19种组织和56种细胞类型,正成为研究的热点。该数据集的提出,旨在促进基础模型的训练,特别是单细胞多组学基础模型。近期的研究方向集中在利用MiniAtlas数据集进行深度学习模型的开发与优化,以实现更精准的细胞类型注释和RNA预测。这一研究方向不仅推动了单细胞分析技术的进步,而且对于理解细胞异质性和疾病机理具有深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作