FlowCyt
收藏arXiv2024-04-25 更新2024-06-21 收录
下载链接:
https://github.com/unige-chil/FlowCyt
下载链接
链接失效反馈官方服务:
资源简介:
FlowCyt是首个针对流式细胞术数据的多类别单细胞分类综合基准。该数据集包含来自30名患者的骨髓样本,每个细胞通过十二个标记进行特征化,并标注有五种血液细胞类型。数据集支持监督学习和半监督学习实验,每名患者数据量高达100万细胞。FlowCyt旨在为临床相关分类任务提供标准化评估,并促进对血液细胞表型的探索性分析,是首个公开的流式细胞术基准,具有丰富的注释和异质性数据集,将推动单细胞分析新方法的开发和严格评估。
FlowCyt is the first comprehensive multi-class single-cell classification benchmark for flow cytometry data. This dataset includes bone marrow samples from 30 patients, where each cell is characterized by twelve markers and annotated with five blood cell types. It supports both supervised and semi-supervised learning experiments, with up to one million cells per patient sample. Designed to provide standardized evaluation for clinically relevant classification tasks and facilitate exploratory analysis of blood cell phenotypes, FlowCyt is the first publicly available flow cytometry benchmark with rich annotations and a heterogeneous dataset, which will advance the development and rigorous evaluation of novel single-cell analysis methods.
提供机构:
日内瓦大学
创建时间:
2024-02-28
搜集汇总
数据集介绍

构建方式
FlowCyt 数据集的构建方式是基于来自 30 名患者的骨髓样本,每个细胞由 12 个标记物进行特征描述。这些样本经过流式细胞仪分析,并通过 KALUZA 软件手动分析。数据集中包含了 5 种血液学细胞类型(T 淋巴细胞、B 淋巴细胞、单核细胞、肥大细胞和造血干细胞/祖细胞)的真实标签。数据集由匿名化的 FCS 文件组成,每个文件包含来自单个患者的细胞数据,以及相应的 CSV 文件,其中包含细胞标签。该数据集的构建旨在提供一个标准化平台,用于评估各种算法和模型在多类单细胞分类任务中的性能。
特点
FlowCyt 数据集的特点在于其全面性和多样性。数据集包含来自 30 名患者的骨髓样本,每个样本包含数十万个细胞,并由 12 个标记物进行特征描述。这些标记物涵盖了细胞的大小、粒度和荧光强度等参数,从而构成了一个高维特征空间,能够捕捉细胞之间的复杂生物学差异。此外,数据集还包含了 5 种血液学细胞类型的真实标签,为研究人员提供了训练和评估分类模型的标准参考。此外,数据集还允许进行探索性分析,例如聚类和降维,以便更全面地研究血液学细胞群体的异质性和动态变化。
使用方法
FlowCyt 数据集的使用方法包括但不限于:1. 多类单细胞分类:研究人员可以使用数据集中的真实标签来训练和评估分类模型,旨在区分不同的细胞类型。2. 探索性分析:数据集允许进行聚类和降维等探索性分析,以便更深入地研究血液学细胞群体的结构和功能。3. 新算法和模型开发:数据集可以作为开发新算法和模型的基础,以实现更准确、更高效的细胞分析。4. 临床应用:数据集可以用于辅助临床诊断和治疗,例如通过自动化分析来识别异常细胞类型。
背景与挑战
背景概述
FlowCyt 数据集是首个用于流式细胞术数据中多类单细胞分类的全面基准。该数据集由来自 30 名患者的骨髓样本组成,每个细胞由 12 个标记物表征。真实标签识别五种血液学细胞类型:T 淋巴细胞、B 淋巴细胞、单核细胞、肥大细胞和造血干细胞/祖细胞 (HSPCs)。实验利用监督归纳学习和半监督转导学习,在每个患者中最多使用 100 万个细胞。基线方法包括高斯混合模型、XGBoost、随机森林、深度神经网络和图神经网络 (GNNs)。GNNs 通过利用图编码数据中的空间关系表现出优越的性能。该基准允许对临床相关的分类任务进行标准化评估,以及探索性分析,以深入了解血液学细胞表型。这是第一个具有丰富注释的异构数据集的公开流式细胞术基准。它将为单细胞分析新方法的开发和严格评估提供动力。
当前挑战
FlowCyt 数据集面临的挑战包括:1) 高维数据:流式细胞术数据具有高维特征空间,这给数据分析带来了挑战。2) 细胞类型不平衡:数据集中不同细胞类型的数量不平衡,这可能导致分类模型在识别某些细胞类型时表现不佳。3) 空间关系建模:GNNs 虽然表现出优越的性能,但构建能够有效捕捉细胞之间空间关系的图结构仍然具有挑战性。4) 临床相关任务的扩展:除了分类任务外,探索其他临床相关任务(如聚类、降维、轨迹推断和异常检测)并开发相应的模型和方法也是一个挑战。5) 数据集的扩展:增加患者队列并包括患有血液学/免疫学疾病(如白血病)的患者,以及获取纵向样本以跟踪患者的治疗过程,对于提高模型的鲁棒性和临床相关性至关重要。
常用场景
经典使用场景
FlowCyt数据集在多类单细胞分类任务中具有广泛的应用价值。该数据集包含来自30名患者的骨髓样本,每个细胞由12个标记物特征描述。研究者可以利用该数据集训练和评估分类模型,以区分五种血细胞类型:T淋巴细胞、B淋巴细胞、单核细胞、肥大细胞和造血干细胞/祖细胞 (HSPCs)。此外,该数据集还支持探索性分析,例如聚类和降维,从而深入探究血细胞群体的异质性和动态变化。
衍生相关工作
FlowCyt数据集的发布促进了相关领域的研究进展。基于该数据集,研究人员开发了多种深度学习模型,例如图神经网络 (GNNs),以更好地理解和分析血细胞群体。此外,FlowCyt数据集还推动了血细胞群体分析方法的创新,例如单细胞轨迹推断和异常检测,为临床诊断和疾病研究提供了更多可能性。
数据集最近研究
最新研究方向
FlowCyt 数据集的最新研究方向主要集中在利用深度学习技术,特别是图神经网络 (GNNs),进行多类单细胞分类。GNNs 在该领域展现出优越的性能,能够有效利用图编码数据中的空间关系,从而更好地理解细胞之间的相互作用和依赖关系。此外,该数据集还支持探索性分析,例如聚类和降维,以深入了解血液学细胞表型的异质性和动态变化。未来研究将包括扩大患者队列,包括患有血液学/免疫学疾病的患者,以及开发新的分析任务,例如轨迹推断,以更好地理解血液细胞的发育轨迹。FlowCyt 数据集将成为推动血液学细胞群体自动化单细胞分析研究和临床转化的有力工具。
相关研究论文
- 1FlowCyt: A Comparative Study of Deep Learning Approaches for Multi-Class Classification in Flow Cytometry Benchmarking日内瓦大学 · 2024年
以上内容由遇见数据集搜集并总结生成



