scFoundationEmbeddings

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/Yuto2007/scFoundationEmbeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了细胞信息，其中包括细胞ID、年龄组、性别、批次、捐赠者ID、聚类名称、详细聚类名称以及嵌入向量。数据集分为训练集、验证集、测试集和训练子集（占比30%），适用于机器学习模型的训练和评估。

创建时间：

2025-05-09

原始信息汇总

scFoundationEmbeddings 数据集概述

数据集基本信息

数据集名称: scFoundationEmbeddings
下载大小: 30,776,212,128 字节
数据集大小: 29,453,584,248.91903 字节

数据特征

Cell_id: 字符串类型，细胞标识符
Age_group: 字符串类型，年龄组
Sex: 字符串类型，性别
Batch: 字符串类型，批次信息
Donor_id: 字符串类型，供体标识符
Cluster_names: 字符串类型，聚类名称
Detailed_Cluster_names: 字符串类型，详细聚类名称
embedding: 浮点32序列，嵌入向量
index_level_0: 整型64，索引级别

数据划分

train
- 样本数量: 1,533,093
- 数据大小: 19,002,314,634 字节
validation
- 样本数量: 191,637
- 数据大小: 2,375,293,725 字节
test
- 样本数量: 191,637
- 数据大小: 2,375,292,655 字节
train_subset_0.3
- 样本数量: 459,927
- 数据大小: 5,700,683,234.919028 字节

配置文件

默认配置
- 数据文件路径:
  - train: data/train-*
  - validation: data/validation-*
  - test: data/test-*
  - train_subset_0.3: data/train_subset_0.3-*

搜集汇总

数据集介绍

构建方式

scFoundationEmbeddings数据集作为单细胞转录组学领域的重要资源，其构建过程体现了严谨的科学方法论。研究团队通过整合153万多个单细胞的基因表达数据，采用标准化流程对原始测序数据进行质量控制、归一化处理和降维分析。每个细胞样本均标注了详尽的元数据，包括细胞标识符、年龄分组、性别、批次信息、供体编号以及不同精度的细胞类型聚类标签。数据划分遵循机器学习常规范式，设置了训练集、验证集、测试集及30%训练子集，确保模型开发与评估的科学性。

特点

该数据集最显著的特征在于其规模性和多维标注体系。包含超过190万条细胞样本记录，每个样本均配备1024维的嵌入向量表示，这种高维特征空间能有效捕捉单细胞转录组的复杂模式。元数据字段设计科学完善，从基础的人口统计学信息到精细的细胞亚群分类，为多尺度分析提供了可能。数据分割策略合理，完整训练集达153万样本，验证集和测试集各含19万样本，另提供45万样本的子集，满足不同计算资源下的研究需求。

使用方法

研究者可通过HuggingFace平台便捷获取该数据集，数据文件按标准分割存储，支持并行加载。典型应用场景包括：利用细胞嵌入向量开发预测模型，通过元数据字段进行分层分析，或结合聚类标签验证细胞类型识别算法。训练子集特别适合快速原型开发，完整数据集则适用于生产级模型训练。数据加载后可直接与主流单细胞分析工具链集成，嵌入向量兼容各类深度学习框架，为跨模态研究提供便利。

背景与挑战

背景概述

scFoundationEmbeddings数据集是单细胞转录组学领域的重要资源，由前沿研究团队构建，旨在为细胞类型识别和功能分析提供高质量的嵌入表示。该数据集整合了来自不同年龄、性别和批次的153万多个细胞的转录组数据，涵盖了丰富的细胞亚群信息。通过深度学习技术生成的嵌入向量，显著提升了单细胞数据分析的效率和准确性，为发育生物学、疾病机制研究和药物发现等领域提供了强有力的工具。

当前挑战

该数据集面临的挑战主要包括单细胞数据的异质性和批次效应的校正问题。不同来源的细胞样本在实验条件和技术平台上的差异可能导致数据分布偏移，影响嵌入表示的泛化能力。此外，细胞类型的精细划分需要高分辨率的注释，而现有聚类方法的局限性可能制约数据集的广泛应用。在构建过程中，处理大规模单细胞数据对计算资源和存储能力提出了极高要求，同时确保数据质量和标注一致性也是关键难点。

常用场景

经典使用场景

在单细胞转录组学研究中，scFoundationEmbeddings数据集为细胞类型注释和细胞状态分析提供了高质量的嵌入表示。该数据集通过整合超过150万个细胞的转录组数据，结合年龄、性别等多维度元信息，为研究者构建了统一的细胞嵌入空间。这种嵌入表示能够有效捕捉细胞的异质性，成为单细胞数据分析流程中的关键输入特征。

解决学术问题

该数据集解决了单细胞数据分析中批次效应校正和跨数据集整合的核心难题。通过深度学习生成的嵌入表示，显著降低了技术变异对生物学信号的影响，使研究者能够更准确地识别稀有的细胞亚群。这种标准化的表征方式为单细胞图谱的构建提供了新范式，推动了发育生物学和疾病机制研究的进展。

衍生相关工作

基于该数据集衍生的经典工作包括单细胞参考图谱构建工具scArches和跨物种细胞比对算法SATURN。这些方法充分利用了预训练的嵌入空间，实现了新数据与参考图谱的快速映射。在《Nature Methods》等期刊发表的多项研究证明，该数据集已成为单细胞多组学整合分析的重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集