CHAMMI
收藏arXiv2024-01-17 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.7988357
下载链接
链接失效反馈官方服务:
资源简介:
CHAMMI数据集是由生物研究中心等机构创建的,包含来自三个不同来源的单细胞图像,总计220,284条数据。该数据集旨在为显微镜成像中的通道自适应模型提供基准。数据集包括来自WTC-11、人类蛋白质图谱和细胞绘画数据集的图像,这些图像具有不同数量的通道。数据集的创建过程涉及从公开资源中收集和标准化单细胞图像,以促进通道自适应模型的发展。CHAMMI数据集的应用领域包括细胞形态量化、蛋白质定位和复合生物活性预测,旨在解决现有模型在不同显微镜设置中难以重用的问题。
The CHAMMI dataset was developed by institutions including biological research centers, and comprises 220,284 single-cell images from three distinct sources. It serves as a benchmark for channel-adaptive models in microscopy imaging. The dataset includes images sourced from WTC-11, the Human Protein Atlas, and the Cell Painting Dataset, which have varying numbers of imaging channels. The curation of the CHAMMI dataset involved collecting and standardizing single-cell images from publicly available resources to advance the development of channel-adaptive models. Its application domains include cell morphology quantification, protein localization, and prediction of complex biological activities, and it aims to resolve the issue that existing models struggle to be reused across different microscopy setups.
提供机构:
生物研究中心
创建时间:
2023-10-30
搜集汇总
数据集介绍

构建方式
在显微成像领域,通道数量因仪器和实验目标而异,传统神经网络难以适应这种变异性。CHAMMI数据集通过整合三个公开可用的单细胞图像资源构建而成:WTC-11数据集(3通道)、人类蛋白质图谱(HPA,4通道)以及细胞绘画数据集(CP,5通道)。研究团队对这些图像进行了标准化处理,包括单细胞分割、分辨率统一和通道展开,最终形成了包含220,284张单细胞图像的多样化通道数据集。数据采样采用分层策略,确保训练集与测试集在生物学标签和技术变异性上分布一致,从而为通道自适应模型的研究提供了可靠基础。
特点
CHAMMI数据集的核心特点在于其通道数量的多样性,涵盖了3至5个通道的显微图像,模拟了真实实验中通道配置的灵活性。数据集包含九个具有生物学意义的下游任务,这些任务分为验证任务和泛化任务,其中泛化任务专门设计用于评估模型在分布外数据上的性能。任务类型包括细胞周期阶段分类、蛋白质亚细胞定位分类以及化合物重复匹配,均基于最近邻搜索和余弦相似度进行评估。数据集的另一个重要特点是其精心设计的评估框架,通过宏观平均F1分数和CHAMMI性能评分(CPS)量化模型表现,为通道自适应模型的比较提供了标准化基准。
使用方法
使用CHAMMI数据集时,研究人员首先通过提供的API加载标准化后的单细胞图像及其对应注释。数据集支持直接用于训练通道自适应模型,如Depthwise、TargetParam或HyperNet等架构,这些模型能够处理可变通道输入。在训练过程中,建议采用微调策略,利用ImageNet预训练权重初始化模型,并结合数据增强技术(如随机裁剪、翻转和薄板样条变换)以提升泛化能力。评估阶段,模型在九个下游任务上进行测试,使用最近邻搜索和余弦相似度计算预测结果,并通过宏观平均F1分数和CPS评分量化性能。该数据集适用于模型架构探索、训练策略优化以及跨域泛化能力的研究。
背景与挑战
背景概述
在计算生物学的蓬勃发展中,显微成像技术已成为解析细胞形态、追踪生命过程的核心工具。然而,传统计算机视觉模型通常预设固定的输入通道数,这与显微镜图像因仪器和实验目标而通道数灵活多变的现实严重脱节。针对这一瓶颈,由博德研究所、波士顿大学等机构的研究团队于2023年共同创建了CHAMMI基准数据集。该数据集旨在系统性地探索和评估通道自适应模型,其核心研究问题是开发能够处理可变通道数显微图像的神经网络架构,以提升模型在不同实验设置间的泛化能力和可复用性。CHAMMI通过整合来自WTC-11、人类蛋白质图谱和细胞绘画三大公开资源的单细胞图像,并设计九项具有生物学意义的下游评估任务,为相关领域提供了首个专注于通道适应性的标准化评测框架,有力推动了可扩展、跨研究的显微图像分析范式的发展。
当前挑战
CHAMMI数据集致力于解决的核心领域挑战是显微图像分析中的通道数可变性问题。具体而言,在细胞周期阶段分类、蛋白质亚细胞定位预测以及化合物重复匹配等任务中,模型必须克服因输入图像通道数量和类型不同而导致的特征提取与表示学习障碍。这要求算法不仅需从多通道数据中捕获稳健的生物学形态特征,还需在分布外泛化测试中保持性能,例如适应未见过的细胞系、细胞器或化合物处理。在数据集构建过程中,研究者面临多重挑战:首先,需从异构的公开数据源中收集、标准化并协调具有不同通道数、分辨率和染色方案的图像,确保其可比性;其次,设计具有渐进难度的生物学相关评估任务时,必须精心分层采样以控制技术变异和批次效应,同时维持原始数据的生物学分布与类别不平衡,以模拟真实应用场景。此外,为通道自适应模型建立公平且全面的性能评估基准,亦需克服传统固定通道模型评估框架的局限性。
常用场景
经典使用场景
在显微镜成像领域,CHAMMI数据集为研究通道自适应模型提供了标准化的评估基准。该数据集整合了来自WTC-11、人类蛋白质图谱和细胞绘画三个公开资源的不同通道数单细胞图像,涵盖了3至5个通道的多样化显微成像配置。通过设计九项下游任务,包括细胞周期阶段分类、蛋白质亚细胞定位预测以及化合物重复匹配等,CHAMMI使得研究者能够系统性地测试模型在变通道输入条件下的泛化能力与计算效率。
衍生相关工作
CHAMMI数据集的推出激发了多项通道自适应方法的探索与优化。基于该基准,研究者提出了深度可分离卷积、切片参数化、目标参数化等自适应策略,并借鉴了模板混合与超网络等现有技术进行改进。这些工作不仅验证了通道自适应模型在显微成像中的有效性,还推动了跨模态图像分析领域的发展,为卫星成像、光谱分析及医学超声等变通道数据场景提供了方法论参考。
数据集最近研究
最新研究方向
在显微成像领域,CHAMMI数据集作为首个专注于通道自适应模型的基准,正推动着计算机视觉与生物医学图像分析的交叉前沿。其核心在于解决显微图像中通道数可变带来的模型泛化难题,通过整合WTC-11、HPA和Cell Painting等多源数据,构建了涵盖细胞周期分类、蛋白定位预测和化合物匹配等九项生物学任务的评估框架。当前研究热点集中于探索深度可分离卷积、超网络等自适应架构,以提升模型在分布外数据上的泛化能力,同时结合随机权重平均等域泛化技术,增强对新型细胞系或实验条件的适应性。这一进展不仅有望降低模型重复训练的成本,还为大规模预训练模型在跨模态显微图像分析中的复用提供了新范式,对加速药物发现和疾病机理研究具有深远意义。
相关研究论文
- 1CHAMMI: A benchmark for channel-adaptive models in microscopy imaging生物研究中心 · 2024年
以上内容由遇见数据集搜集并总结生成



