biohub/popsicle
收藏Hugging Face2026-05-06 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/biohub/popsicle
下载链接
链接失效反馈官方服务:
资源简介:
POPSICLE(**P**article/**O**bject **P**icking & **S**egmentation **I**n **C**ryoET **L**earning & **E**valuation)是一个用于冷冻电子断层扫描(cryoET)的基准测试套件,涵盖细胞结构的密集体素分割和分子复合物的稀疏定位。该套件基于CryoET数据门户构建,包含四个子基准测试:Phantom(多类分子定位)、Bacterial(多类区室分割)、Yeast(多类细胞器分割)和MotorBench(单类鞭毛马达定位)。每个子基准测试都有其特定的任务、生物样本和数据集划分,适用于训练和评估3D分割网络、粒子拾取方法以及多任务模型。数据集采用CC0-1.0许可证,允许公共领域使用。
POPSICLE (**P**article/**O**bject **P**icking & **S**egmentation **I**n **C**ryoET **L**earning & **E**valuation) is a benchmark suite for cryo-electron tomography (cryoET) covering both dense voxel-wise segmentation of cellular structures and sparse localization of macromolecular complexes. The suite includes four sub-benchmarks: Phantom (multi-class macromolecular localization), Bacterial (multi-class compartment segmentation), Yeast (multi-class organelle segmentation), and MotorBench (single-class flagellar motor localization). Each sub-benchmark is designed for specific tasks, biological samples, and dataset splits, suitable for training and evaluating 3D segmentation networks, particle-picking methods, and multi-task models. The dataset is licensed under CC0-1.0, allowing public domain use.
提供机构:
biohub
搜集汇总
数据集介绍

构建方式
POPSICLE(Particle/Object Picking & Segmentation In CryoET Learning & Evaluation)是专为冷冻电子断层扫描(cryoET)图像分析设计的基准测试套件。其构建方式独具匠心,直接依托于CryoET数据门户上已有的公开数据集;每个子基准测试以mlcroissant清单及CSV索引文件的形式,构成一层轻量级统一清单层,囊括数据划分、规范类别名称、地面真值筛选与评估协议。该套件包含四个子基准:Phantom(多类别大分子定位)、Bacterial(多类别细胞区室分割)、Yeast(多类别细胞器分割)以及MotorBench(单类别鞭毛马达定位)。
特点
该数据集的核心特色在于其全面覆盖cryoET分析的两大任务类型:致密体素级分割与稀疏大分子定位,且横跨真核与原核生物体系,以及受控与完全原位成像条件。其数据样本量虽不足1K张断层扫描图,但通过精心选择不同形态与分子量的待检测对象及极度不均衡的类别分布(如Yeast子集中细胞器出现频率差异悬殊),刻意营造出小样本、高变异、类别失衡等现实挑战场景,从而能够揭示不同算法在不同任务间的归纳偏置权衡难题。
使用方法
使用POPSICLE十分便捷,用户可通过copick工具库直接加载Croissant元数据链接,从CryoET数据门户流式传输原始断层扫描数据及其标注。数据支持训练与评估多种3D分割网络及粒子挑选方法。具体使用时,用户可根据任务需求选择对应子目录(如phantom、bacterial、yeast或motorbench),并遵循预设的训练/测试划分,结合提供的F4评估协议进行模型性能评估。数据集同时提供Colab笔记本供用户一键加载和可视化数据,快速上手分析流程。
背景与挑战
背景概述
冷冻电子断层扫描(cryoET)技术能够在近生理状态下揭示细胞内部的大分子结构与空间组织,是结构生物学与细胞生物学交叉领域的前沿工具。然而,由于cryoET数据的高噪声、低对比度以及三维重建的复杂性,从断层图像中自动提取生物大分子的位置与形态面临着严峻的计算挑战。为攻克这一瓶颈,POPSICLE(Particle/Object Picking & Segmentation in CryoET Learning & Evaluation)基准数据集于2025年由Chan Zuckerberg Biohub动态结构生物学团队牵头创建,并随NeurIPS 2026投稿论文发布。该数据集系统整合了CryoET数据门户中四个子基准测试,涵盖真核与原核系统、体外与原位成像场景,以及稠密体素分割与稀疏大分子定位两类核心任务,旨在为cryoET领域的机器学习方法提供统一、可重复的评估框架,有力推动了该领域计算方法的标准化与可比性。
当前挑战
POPSICLE数据集所聚焦的领域挑战在于,cryoET图像中生物大分子异构体尺度跨度极大(约268至4300 kDa),且细胞内部背景噪声高度复杂,现有方法在稀疏定位与稠密分割任务间存在显著的归纳偏好差异,单一任务评估无法全面反映模型泛化能力。构建过程中挑战同样突出:训练样本极其有限(如Phantom子集仅7张断层图像),反映了真实的标注成本约束;此外需协调来自多个门户沉积的不同格式与注释标准的异构数据,并确保测试集与数据集其他来源的社区提交注释不混淆,基准维护者通过统一的Croissant元数据清单层、严格的分区定义与评估协议,才得以实现跨任务的公平比较与复现。
常用场景
经典使用场景
POPSICLE作为冷冻电子断层扫描(cryoET)领域首个综合性基准套件,其经典使用场景涵盖了两大核心任务:稀疏生物大分子复合物的三维定位(particle picking)和细胞结构的稠密体素级分割(voxel-wise segmentation)。该数据集精心设计了四个子基准测试,分别聚焦于来自不同生物体系(真核与原核)、不同成像条件(对照与原位)以及不同任务难度的真实冷冻电镜断层扫描数据。研究者可依托其统一的数据清单层,在同一框架下公平地训练和比较各类三维分割网络(如nnU-Net、SwinUNETR)与粒子挑选算法(如DeepFinder),从而系统性地评估模型在不同任务间的泛化能力与归纳偏置差异。
衍生相关工作
POPSICLE基准套件的诞生直接衍生并催生了一系列极具影响力的经典工作。其Phantom子基准构成了CZII—CryoET物体识别Kaggle挑战赛的基础,吸引了全球众多计算科学团队的参与,涌现出大量针对小样本学习与多粒子类别检测的创新解决方案,如基于transformer架构的检测头设计与自监督预训练策略。MotorBench子基准则源自BYU定位细菌鞭毛马达的Kaggle竞赛,其训练集聚合了来自92个宿主数据集的1559个马达粒子标注,为后续开发跨原核生物种类的通用检出模型提供了数据基石。这些相关工作不仅推动了深度学习模型在冷冻电镜领域的专业化发展,更反过来促进了社区对数据标准化、可复现性评估以及开放科学实践重要性的广泛共识,形成了一个活跃的、以数据驱动的学术创新生态。
数据集最近研究
最新研究方向
POPSICLE基准套件为冷冻电子断层扫描(cryoET)领域提供了首个集密集体素分割与稀疏大分子定位于一体的标准化评估框架,其核心研究方向聚焦于多任务深度学习模型的泛化能力与归纳偏好权衡。该数据集通过整合真核与原核生物样本、涵盖体外可控与完全原位成像场景,并设置极低数据量(如幻影子集仅7张断层扫描图用于训练)与高度类别不平衡(如酵母子集中细胞质普遍存在而线粒体仅占少数)等现实挑战,推动了诸如nnU-Net、SwinUNETR及DeepFinder等网络在结构生物学中的鲁棒性验证。与近年Nature Methods发布的CryoET数据门户及Kaggle挑战赛(如CZII对象识别与细菌鞭毛马达定位)紧密联动,POPSICLE曝光了单一任务评估无法揭示的模型设计缺陷,促使学界重新审视分割与检测算法在跨细胞器与复合物尺度上的适配性,为冷冻电子断层扫描技术的自动化解析与下游子断层扫描平均分析奠定了基准基石。
以上内容由遇见数据集搜集并总结生成



