aida-asian-pbmc-cell-age-related-cell-sentence-balanced-120k

Hugging Face2025-11-18 更新2025-11-19 收录

下载链接：

https://huggingface.co/datasets/transhumanist-already-exists/aida-asian-pbmc-cell-age-related-cell-sentence-balanced-120k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练基础模型以理解细胞衰老和长寿模式的数据集，包含经过精心策划和平衡的单细胞转录组数据。数据来源于CZI CellxGene Collection，并包含了两个权威长寿数据库中的基因句子嵌入。数据集在捐赠者级别进行了分层80/20的训练/测试分割，确保了人口统计和临床特征的比例代表性。

创建时间：

2025-11-15

原始信息汇总

数据集概述

基本信息

数据集名称: Cell2Sentence for Longevity - Balanced Dataset (120k)
总样本数: 119,792
总供体数: 625
训练样本: 95,846（500个供体，80.0%）
测试样本: 23,946（125个供体，20.0%）
唯一细胞类型: 32
每个供体样本数: 192（中位数），191.7（平均值）

数据来源

主要数据源

CZI CellxGene Collection: Tabula Sapiens - A multiple-organ, single-cell transcriptomic atlas of humans

基因注释

gene_sentence_opengenes: 来自Open Genes Database的顶级年龄相关基因
gene_sentence_human_genage: 来自GenAge Database的人类衰老基因

数据准备流程

多样性保留供体分割

在供体级别创建分层80/20训练/测试分割
分层因素：年龄、疾病状态、性别、自我报告种族、吸烟状态
训练集和测试集之间无供体重叠

平衡采样策略

目标：120,000个总样本（每个供体192个样本×625个供体）
623个供体达到192个样本
2个供体因原始数据有限而样本较少

技术实现

使用64个工作者并行处理
HuggingFace datasets库，num_proc=64
随机种子：训练集42，测试集1042

人口统计分布

年龄分布

年龄组：18-29、30-39、40-49、50-59、60-69、70+
最大差异：±1.80%

性别分布

女性：训练集55.40%，测试集58.40%
男性：训练集44.60%，测试集41.60%
最大差异：±3.00%

种族分布

种族：印度人、日本人、韩国人、新加坡华人、新加坡印度人、新加坡马来人、泰国人、未知
最大差异：±1.80%

疾病分布

所有供体均为正常疾病状态

吸烟状态分布

训练集：71.6%不吸烟者，23.0%吸烟者，5.4%未知
测试集：67.2%不吸烟者，29.6%吸烟者，3.2%未知

细胞类型分布

免疫细胞（T细胞、B细胞、NK细胞、单核细胞、树突状细胞）
血细胞（红细胞、血小板）
组织特异性细胞（肝细胞、上皮细胞、内皮细胞）

供体多样性

年龄范围: 从年轻人到老年人（18-70+）
地理多样性: 多个国家和种族
健康状况: 所有健康供体
吸烟状态: 吸烟者和不吸烟者的平衡表示

数据格式

每个样本包含：

基因表达数据
细胞元数据
供体元数据
基因注释

使用案例

细胞衰老基础模型训练
细胞类型特异性衰老模式理解
长寿生物标志物预测
跨供体泛化研究
年龄相关疾病研究

文件

train.parquet（16GB）：95,846个样本的训练数据集
test.parquet（3.9GB）：23,946个样本的测试数据集
stats.json：详细数据集统计信息

预处理脚本

create_diversity_split.py：分层供体分割生成
create_balanced_dataset_hf.py：带重新分配的平衡采样
check_smoking_distribution.py：人口统计验证
check_donor_overlap.py：训练/测试分离验证

许可证

请参考原始CZI CellxGene数据许可证和Tabula Sapiens集合的使用条款。

致谢

Chan Zuckerberg Initiative for the CellxGene Data Portal
The Tabula Sapiens Consortium for the original dataset
Open Genes and GenAge teams for longevity gene annotations

数据集生成时间：2025-11-14

搜集汇总

数据集介绍

构建方式

在单细胞转录组学领域，该数据集基于CZI CellxGene平台的Tabula Sapiens多器官人类细胞图谱构建，通过分层抽样策略将625名供体按年龄、性别、种族等63个临床特征维度划分为80%训练集与20%测试集。采用双阶段平衡采样算法，首先按细胞类型比例分配目标样本量，再通过二次重分配机制填补数据稀缺类型的缺口，最终实现623名供体均达到192个样本的均衡分布，仅两名供体受原始数据限制保留实际可用细胞数量。

使用方法

研究者可通过HuggingFace数据集库直接加载16GB训练集与3.9GB测试集文件，每个样本包含基因表达谱、细胞类型标注及供体元数据三重信息。该数据集适用于训练细胞衰老预测基础模型，通过整合长寿基因注释信息可挖掘细胞类型特异性的衰老标志物。在验证模型泛化能力时，需注意测试集与训练集在供体层面完全隔离的设计特性，确保评估结果反映真实的跨个体预测性能。

背景与挑战

背景概述

单细胞转录组学技术的快速发展为理解细胞衰老机制提供了全新视角。aida-asian-pbmc-cell-age-related-cell-sentence-balanced-120k数据集基于2022年发布的Tabula Sapiens多器官单细胞转录组图谱构建，整合了Open Genes与GenAge两大权威长寿基因数据库的注释信息。该数据集通过系统采集625名亚洲人群外周血单核细胞样本，聚焦于细胞类型特异性衰老模式的解码，为建立可预测生物年龄的计算模型提供了标准化数据基础。其精心设计的供体分层策略覆盖了年龄、性别、民族等多维度人口学特征，显著提升了衰老生物学研究的泛化能力。

当前挑战

在细胞衰老研究领域，单细胞数据的高维度特性与个体间异质性构成了核心分析障碍。本数据集构建过程中面临供体样本均衡性管理的技术挑战，需通过两阶段重分配算法解决稀有细胞类型样本不足的问题。原始数据中JP_RIK_H007等供体仅含71个细胞的极端情况，要求开发自适应采样策略确保数据代表性。同时，跨民族衰老模式的解析需要克服人口学特征耦合效应，分层抽样时63个独立 strata 中11个单供体层级的处理，对维持训练集与测试集分布一致性提出了精确计算要求。

常用场景

经典使用场景

在单细胞转录组学领域，该数据集通过整合来自32种细胞类型的近12万个样本，构建了细胞衰老研究的标准化基准。其经典应用场景聚焦于训练基础模型识别细胞类型特异性衰老模式，模型通过分析不同年龄组供体的基因表达谱，能够捕捉从免疫细胞到组织特异性细胞在衰老过程中的动态变化规律。这种跨细胞类型的系统性分析为理解生物体整体衰老机制提供了多维度视角。

解决学术问题

该数据集有效解决了衰老研究中细胞异质性建模的学术难题，通过平衡采样策略消除了供体数量差异对模型训练的干扰。其整合Open Genes与GenAge数据库的基因注释，使得研究者能够精准识别与长寿相关的关键生物标志物。分层抽样设计确保了模型在不同年龄、性别和种族群体中的泛化能力，为建立可解释的细胞衰老预测模型奠定了数据基础。

实际应用

在临床转化层面，该数据集支撑的模型可用于早期识别年龄相关疾病风险，通过分析外周血单核细胞的转录组特征预测个体衰老速率。药物研发领域可借助该数据集筛选抗衰老化合物，评估干预措施对特定细胞类型的影响。此外，在个性化医疗中，该数据为建立个体化衰老时钟模型提供了重要参考，助力精准健康管理策略的制定。

数据集最近研究