five

tissue-downstream-tasks

收藏
Hugging Face2025-04-11 更新2025-04-12 收录
下载链接:
https://huggingface.co/datasets/genbio-ai/tissue-downstream-tasks
下载链接
链接失效反馈
官方服务:
资源简介:
AIDO.Tissue数据集包含两项任务:niche类型分类和细胞密度预测。niche类型分类任务是基于人类肝脏样本的空间转录组数据,旨在预测每个细胞的niche类型,共有6种类型。细胞密度预测任务是根据表达谱预测目标细胞周围的细胞数量,数据包括健康和肿瘤样本。数据集以.h5ad文件格式存储,包含空间坐标信息和相应的任务相关值。
创建时间:
2025-04-04
原始信息汇总

AIDO.Tissue数据集集合概述

1. 数据集任务类型

1.1 微环境类型分类(niche type classification)

  • 任务目标: 根据空间转录组数据预测每个细胞的微环境类型(共6种类型)
  • 数据来源: 人类肝脏样本(健康样本切片)
  • 数据格式: .h5ad文件
  • 包含信息:
    • 空间坐标信息(x, y)
    • 微环境类型(niche_labelniche)
    • 细胞类型(cellTypecellType_label)
    • 数据集划分(split)
  • 样本量: 34,573个观测值 × 19,264个变量

1.2 细胞密度预测(cell density)

  • 任务目标: 根据基因表达谱预测目标细胞周围特定半径内的邻近细胞数量
  • 数据来源: 人类肝脏样本(包含健康和肿瘤样本切片)
  • 数据格式: .h5ad文件
  • 包含信息:
    • 空间坐标信息(x, y)
    • 密度值(density)
    • 数据集划分(split)
  • 样本量: 124,058个观测值 × 19,264个变量

2. 其他文件

  • scRNA_genename_and_index.tsv: 基因名称和索引对应表
  • processed_fetal_lung_visium_xenium.xenium.convert.h5ad: 用于测试细胞嵌入转储
搜集汇总
数据集介绍
main_image_url
构建方式
在空间转录组学研究领域,tissue-downstream-tasks数据集通过整合人类肝脏样本的空间分子成像数据构建而成。研究者采用专业工具对细胞微环境进行标注,综合考虑基因表达谱相似性、空间邻域结构及组织学信息,将原始数据划分为训练集、验证集和测试集。数据以.h5ad格式存储,包含细胞空间坐标(x,y)和微环境类型标签(niche_label)等关键特征,为细胞微环境分类研究提供结构化数据支持。
特点
该数据集具有鲜明的多模态特性,同时涵盖空间转录组数据和细胞密度信息。其独特价值在于包含健康与肿瘤样本的对比数据,能清晰反映不同生理状态下细胞空间分布差异。数据规模庞大,仅细胞密度任务就包含124,058个观测样本,每个样本记录19264个基因表达量。数据标注体系严谨,采用双标签系统(niche和niche_label)确保分类准确性,为微环境分析提供多维研究视角。
使用方法
使用该数据集需借助anndata库进行数据加载与处理。研究人员可通过读取.h5ad文件获取结构化数据对象,其中obs字段包含所有关键注释信息。对于微环境分类任务,可直接调用niche_label作为监督信号;细胞密度预测则需分析density字段。配套的基因名称索引文件(scRNA_genename_and_index.tsv)为实现基因表达矩阵的精准解析提供必要映射关系,支持各类下游分析任务的开展。
背景与挑战
背景概述
tissue-downstream-tasks数据集由AIDO团队构建,专注于空间转录组学在组织微环境分析中的应用。该数据集基于人类肝脏样本的空间转录组数据,旨在研究细胞微环境(niche)分类及细胞密度分布等核心问题。空间转录组技术的快速发展为解析组织内细胞的空间分布和功能状态提供了全新视角,而该数据集的创建则为相关算法开发提供了重要基准。数据集整合了基因表达谱、空间邻域结构以及组织学信息,为理解肝脏组织的空间异质性奠定了数据基础。
当前挑战
该数据集面临两大核心挑战:在领域问题层面,细胞微环境分类任务需克服组织区域间基因表达的连续渐变特性,而细胞密度预测需解决肿瘤与正常组织密度分布的高度重叠问题;在构建过程层面,原始数据的多模态整合(空间坐标与表达谱对齐)以及大规模单细胞数据的标注一致性保障成为主要技术瓶颈。此外,不同批次实验数据的批次效应校正也对数据质量控制提出了较高要求。
常用场景
经典使用场景
在空间转录组学研究中,tissue-downstream-tasks数据集被广泛用于细胞微环境分类任务。通过整合基因表达谱、空间邻域结构和组织学信息,研究者能够精确标注每个细胞的微环境类型。该数据集提供了人类肝脏样本的空间坐标和微环境标签,为开发新型细胞类型分类算法提供了标准化基准。
解决学术问题
该数据集有效解决了空间生物学中细胞微环境定量表征的难题。通过提供标准化的空间转录组数据,研究者能够系统研究肝脏组织中不同功能区域的细胞分布规律。这不仅深化了对肝脏分区化功能的理解,更为开发基于人工智能的空间组学分析方法奠定了数据基础。
衍生相关工作
基于该数据集,研究者已开发出多种空间组学分析方法。例如,Schaar等人利用细胞密度特征建立了肿瘤微环境识别模型;另有研究团队结合深度学习,开发了能够预测细胞空间分布的GraphNeuralNetwork架构。这些工作显著推动了单细胞空间组学分析技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作