five

aging-fly-cell-atlas

收藏
Hugging Face2025-06-22 更新2025-06-23 收录
下载链接:
https://huggingface.co/datasets/longevity-db/aging-fly-cell-atlas
下载链接
链接失效反馈
资源简介:
AFCA数据集提供了果蝇单核转录组数据,涵盖了从头到身体的组织,并在整个生命周期中进行了研究。该数据集包含来自头部和身体组织的56万6千273个单核细胞,以及78种不同的细胞类型,包括详细的注释。数据集包括多个年龄时间点(5、30、50、70天),并按性别分层。数据集还提供了丰富的注释,包括AFCA、FCA和广泛的细胞类型分类。此外,数据集还提供了预先计算的嵌入(PCA、t-SNE和UMAP),以及所有细胞的全面质量控制指标。AFCA数据集旨在为长寿研究、机器学习应用和与年龄相关的疾病过程提供前所未有的见解。

The AFCA dataset features single-nucleus transcriptomic data of Drosophila melanogaster, covering tissues ranging from the head to the body and profiled across the entire lifespan. This dataset contains 566,273 single-nuclei from head and body tissues, along with 78 distinct cell types accompanied by detailed annotations. It includes multiple age time points (5, 30, 50, and 70 days) and is stratified by sex. The dataset also provides comprehensive annotations including AFCA, FCA, and extensive cell type classifications. Additionally, precomputed embeddings (PCA, t-SNE, and UMAP) as well as comprehensive quality control metrics for all cells are supplied with the dataset. The AFCA dataset aims to deliver unprecedented insights into longevity research, machine learning applications, and age-related disease processes.
创建时间:
2025-06-16
原始信息汇总

Aging Fly Cell Atlas (AFCA) - Drosophila melanogaster Head Dataset 数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 标签: longevity, aging, drosophila, single-cell-rna-seq, fly-aging, cellular-aging, 10x-genomics, aging-atlas, model-organism
  • 数据集名称: Aging Fly Cell Atlas (AFCA) - Drosophila melanogaster Head Dataset
  • 数据规模: 100K < n < 1M
  • 语言: 英语

数据集配置

  • 默认配置:
    • 头部组织表达矩阵: aging_fly_head_expression.parquet
    • 头部组织样本元数据: aging_fly_head_sample_metadata.parquet
    • 头部组织特征元数据: aging_fly_head_feature_metadata.parquet
    • 头部组织PCA投影: aging_fly_head_projection_X_pca.parquet
    • 头部组织t-SNE投影: aging_fly_head_projection_X_tsne.parquet
    • 头部组织UMAP投影: aging_fly_head_projection_X_umap.parquet
    • 身体组织表达矩阵: aging_fly_body_expression.parquet
    • 身体组织样本元数据: aging_fly_body_sample_metadata.parquet
    • 身体组织特征元数据: aging_fly_body_feature_metadata.parquet
    • 身体组织PCA投影: aging_fly_body_projection_X_pca.parquet
    • 身体组织t-SNE投影: aging_fly_body_projection_X_tsne.parquet
    • 身体组织UMAP投影: aging_fly_body_projection_X_umap.parquet
  • 元数据JSON配置:
    • 头部非结构化元数据: aging_fly_head_unstructured_metadata.json
    • 身体非结构化元数据: aging_fly_body_unstructured_metadata.json

数据集概览

  • 原始研究: Lu et al., Science 2023
  • 交互式图集: hongjielilab.org/afca
  • GEO存储库: GSE218661
  • 处理存储库: github.com/winternewt/aging-fly-cell-atlas

关键特征

  • 566,273个单核细胞(头部和身体组织)
  • 78种不同的细胞类型(40种头部 + 38种身体类型)
  • 多个年龄时间点: 5、30、50、70天
  • 性别分层数据: 雄性和雌性果蝇
  • 丰富的注释: AFCA、FCA和广泛的细胞类型分类
  • 预计算嵌入: PCA、t-SNE和UMAP坐标

数据集结构

  • 头部组织:
    • 表达矩阵: 962MB
    • 细胞元数据: 5.6MB
    • 基因注释: 220KB
    • PCA嵌入: 258MB
    • UMAP坐标: 5.8MB
    • t-SNE坐标: 5.8MB
  • 身体组织:
    • 表达矩阵: 916MB
    • 细胞元数据: 5.5MB
    • 基因注释: 220KB
    • PCA嵌入: 85MB
    • UMAP坐标: 5.6MB
    • t-SNE坐标: 5.6MB

数据维度

  • 细胞: 566,273个单核细胞(289,981头部 + 276,273身体)
  • 基因: ~16,000个蛋白质编码和非编码基因
  • 细胞类型: 78种不同的细胞类型(40种头部 + 38种身体)
  • 年龄: 多个时间点(5、30、50、70天)
  • 性别: 雄性和雌性果蝇
  • 文件大小: 2.2GB(优化parquet格式)

生物学背景

捕获的衰老表型

  • 脂肪体扩张: 通过无丝分裂样分裂的多核细胞
  • 肌肉减少症: 飞行和骨骼肌质量损失
  • 代谢变化: 改变的脂质稳态和能量代谢
  • 核糖体下降: 蛋白质合成机制的普遍减少
  • 线粒体功能障碍: 氧化磷酸化减少

细胞类型多样性

  • 神经元: 胆碱能、GABA能、谷氨酸能、单胺能
  • 胶质细胞: 星形胶质细胞、包裹、皮质、表面胶质细胞
  • 特殊细胞: 光感受器、Kenyon细胞、肽能神经元
  • 非神经细胞: 脂肪体、肌肉、血细胞、生殖细胞

快速开始

加载数据集

python from datasets import load_dataset import pandas as pd

dataset = load_dataset("longevity-db/aging-fly-cell-atlas") head_expression = dataset[head_expression].to_pandas() head_metadata = dataset[head_sample_metadata].to_pandas() body_expression = dataset[body_expression].to_pandas() body_metadata = dataset[body_sample_metadata].to_pandas()

主要发现与应用

主要发现

  1. 细胞类型特异性衰老速率: 不同组织以不同速度衰老
  2. 脂肪体多核化: 细胞衰老的新机制
  3. 保守的核糖体下降: 跨细胞类型的普遍衰老特征
  4. 衰老时钟: 从单细胞转录组进行高精度年龄预测
  5. 性别差异: 雄性和雌性果蝇的不同衰老模式

研究应用

  • 长寿研究: 识别延长寿命的靶点和机制
  • 衰老时钟: 开发生物衰老的生物标志物
  • 疾病建模: 理解与年龄相关的病理过程
  • 药物发现: 在细胞分辨率下筛选抗衰老干预措施
  • 比较衰老: 与哺乳动物进行跨物种衰老研究

引用

bibtex @article{lu2023aging, title={Aging Fly Cell Atlas identifies exhaustive aging features at cellular resolution}, author={Lu, Tzu-Chiao and Brbi{c}, Maria and Park, Ye-Jin and Jackson, Tyler and Chen, Jiaye and Kolluru, Sai Saroja and Qi, Yanyan and Katheder, Nadja Sandra and Cai, Xiaoyu Tracy and Lee, Seungjae and others}, journal={Science}, volume={380}, number={6650}, pages={eadg0934}, year={2023}, publisher={American Association for the Advancement of Science}, doi={10.1126/science.adg0934} }

许可证与使用

  • 许可证: CC BY 4.0
  • 使用指南:
    • ✅ 允许研究和商业用途
    • ✅ 允许修改和重新分发
    • ✅ 鼓励学术和教育用途
    • 📝 需要引用原始论文
搜集汇总
数据集介绍
main_image_url
构建方式
Aging Fly Cell Atlas(AFCA)数据集通过单核转录组测序技术构建,涵盖了黑腹果蝇(Drosophila melanogaster)头部和身体组织的全生命周期数据。研究团队采用10x Genomics平台对5、30、50和70天不同年龄阶段的雄性和雌性果蝇进行采样,共捕获566,273个单核转录组数据。数据经过严格的质控流程,包括基因表达量化、批次校正和细胞类型注释,最终形成包含78种详细注释细胞类型的综合图谱。原始数据从GEO数据库(GSE218661)获取,并通过标准化处理流程转化为优化的Parquet格式。
特点
该数据集作为目前最全面的果蝇衰老细胞图谱,其突出特点体现在多维度的生物学信息整合。数据集包含289,981个头部细胞和276,273个身体细胞的基因表达矩阵,覆盖约16,000个蛋白质编码和非编码基因。每个细胞均附有三层注释体系(AFCA、FCA和广义分类),并预计算了PCA、t-SNE和UMAP降维坐标。特别值得注意的是,数据集精准捕捉了衰老过程中的细胞组成变化、核糖体活性下降等保守衰老特征,以及脂肪体多核化等新型衰老现象,为研究细胞特异性衰老速率提供了独特资源。
使用方法
研究者可通过HuggingFace平台直接加载该数据集进行多维度分析。使用datasets库加载后,可分别访问头部和身体组织的基因表达矩阵、细胞元数据和降维坐标。典型应用包括:通过比较不同年龄组的基因表达差异识别衰老相关基因;利用预计算的降维坐标进行细胞亚群可视化;分析细胞类型比例随年龄的动态变化。数据集特别适合构建衰老预测模型、研究细胞身份维持机制,以及开发抗衰老干预措施的筛选平台。配套的Python代码示例提供了从数据加载到差异表达分析的全流程指导。
背景与挑战
背景概述
Aging Fly Cell Atlas (AFCA) 数据集由Lu等人于2023年在《Science》期刊上首次发布,是迄今为止最为全面的黑腹果蝇衰老单细胞转录组图谱。该数据集由Hongjie Li实验室主导构建,涵盖了果蝇整个生命周期中头部和身体组织的566,273个单细胞核数据,涉及78种不同细胞类型。作为模式生物研究的里程碑式资源,AFCA为理解细胞衰老机制、长寿调控网络以及年龄相关疾病进程提供了前所未有的分子水平洞察。其跨时间点(5、30、50、70天)和性别分层的设计,使得研究者能够系统解析衰老过程中细胞组成变化、基因表达动态及细胞身份维持等核心生物学问题,对比较老年学和转化医学研究具有重要价值。
当前挑战
AFCA数据集面临的主要挑战体现在科学问题和技术实现两个维度。在科学层面,如何从海量单细胞数据中准确识别具有因果关系的衰老驱动因子,区分细胞自主性与微环境影响的贡献,是解析衰老机制的关键难点。技术层面涉及大规模单细胞数据的标准化处理,包括批次效应校正、低质量细胞过滤以及跨年龄样本的整合分析。数据集构建过程中,研究团队需克服果蝇组织解离困难导致的细胞捕获效率差异,解决衰老样本RNA质量下降带来的技术噪音,并开发适用于多时间点比较的计算分析方法。此外,将高维转录组数据转化为可解释的生物学发现,需要开发新型算法来捕捉衰老相关的非线性细胞状态转变。
常用场景
经典使用场景
在衰老生物学研究中,Aging Fly Cell Atlas数据集为探索果蝇模型生物在单细胞分辨率下的衰老机制提供了经典范式。研究者通过分析超过56万个单核转录组数据,能够系统绘制不同细胞类型随年龄变化的动态图谱,揭示神经元、胶质细胞等特定细胞群的衰老特征。该数据集特别适用于构建细胞类型特异的衰老时钟,量化核糖体衰退等保守衰老标志物的表达规律。
解决学术问题
该数据集有效解决了衰老研究领域细胞异质性难以量化的问题。通过覆盖5至70天完整生命周期的时空转录组数据,研究者可精准识别脂肪体多核化等新型衰老特征,解析性别差异对衰老进程的影响。其单细胞分辨率填补了传统批量测序无法区分细胞类型特异性变化的空白,为建立跨物种保守衰老标志物体系提供了关键证据。
衍生相关工作
该数据集已衍生出多项重要研究成果,包括《Science》报道的果蝇衰老单细胞图谱基准研究。基于此开发的FlyAgeClock算法实现了单细胞水平的年龄预测,相关方法被扩展应用于小鼠衰老模型。近期发表的跨物种衰老分析工作,正是通过整合该数据集与哺乳动物数据,揭示了核糖体通路在进化中的保守性变化规律。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作