cellmap-2d
收藏Hugging Face2026-02-20 更新2026-02-21 收录
下载链接:
https://huggingface.co/datasets/eminorhan/cellmap-2d
下载链接
链接失效反馈官方服务:
资源简介:
CellMap 2D数据集包含来自CellMap分割挑战中使用的EM体积的所有2D切片。这些切片来自289个3D EM体积裁剪(这些裁剪来自22个不同样本),并保持其原始分辨率(未调整大小)。数据集中的每个样本包含以下字段:'image'(以PIL.Image对象编码的实际2D切片)、'crop_name'(标识切片来源的样本和裁剪名称的字符串)、'axis'(指示切片沿哪个轴获取,可能为x、y或z)和'slice'(沿轴的切片索引)。数据集总共有238,805个样本,总大小为54.7GB。数据集适用于体积电子显微镜中的细胞器分割任务。数据最初来自HHMI Janelia的OpenOrganelle数据门户,采用CC-BY-4.0许可证发布。使用此数据集时,请引用相关论文。
创建时间:
2026-02-20
搜集汇总
数据集介绍
构建方式
在计算生物显微成像领域,CellMap 2D数据集源自CellMap分割挑战赛所采用的电子显微镜三维体积数据。该数据集系统性地从289个三维EM体积裁剪块中提取了所有x、y、z轴向的二维切片,这些裁剪块来源于22个不同的生物样本。构建过程中严格保持了数据的原始分辨率,未进行任何缩放处理,确保了图像信息的完整性。数据行经过预先随机打乱,使得各数据分片在规模上大致均匀,为后续的机器学习模型训练提供了良好的数据基础。
使用方法
为便于科研人员使用,该数据集可通过HuggingFace的datasets库以非流式模式直接加载。用户仅需执行`load_dataset('eminorhan/cellmap-2d', split='train')`指令即可获取完整的训练集。加载后的数据集可直接进行迭代访问或索引查询,例如`ds[0]`将返回一个包含图像与元数据的字典。数据集遵循CC-BY-4.0许可协议,使用者需在相关工作中引用指定的原始文献,以尊重并认可数据贡献者的工作。这种便捷的访问方式与清晰的引用规范,有力地支持了体积电子显微镜图像分析领域的可重复性研究。
背景与挑战
背景概述
在计算生物学与神经科学领域,三维电子显微镜(volume electron microscopy)技术为细胞器与亚细胞结构的精细解析提供了前所未有的高分辨率数据。CellMap 2D数据集应运而生,源自霍华德·休斯医学研究所珍妮莉亚研究园区于2024年发起的CellMap分割挑战,旨在推动全细胞器自动分割算法的发展。该数据集整合了来自22个不同样本的289个三维EM体积裁剪,并沿x、y、z轴提取所有二维切片,保留了原始分辨率,为机器学习模型训练提供了大规模、多样化的图像基础。其核心研究问题聚焦于解决体积电镜图像中细胞器分割的自动化与精度提升,对细胞生物学、疾病机理研究与计算显微成像领域具有显著的推动作用。
当前挑战
CellMap 2D数据集所针对的领域挑战在于体积电子显微镜图像中细胞器分割的复杂性与多样性。由于细胞器形态各异、边界模糊,且在不同组织与样本中呈现高度变异性,传统分割方法难以实现高精度与鲁棒性的自动化分析。构建该数据集的过程亦面临多重挑战:首先,原始三维EM数据体积庞大,需进行高效裁剪与切片处理,同时确保数据完整性;其次,来自多个样本的数据需统一标注与质量控制,以维持数据集的一致性与可靠性;此外,数据预处理需保留原生分辨率,避免信息损失,这对存储与计算资源提出了较高要求。这些挑战共同凸显了大规模生物图像数据集构建的技术难度与应用价值。
常用场景
经典使用场景
在计算生物医学成像领域,CellMap 2D数据集为细胞器分割任务提供了关键的数据基础。该数据集汇集了来自289个三维电子显微镜体积的二维切片,覆盖了22个不同生物样本,其经典使用场景集中于训练和评估深度学习模型,以实现对细胞内细胞器结构的精确像素级分割。研究人员利用这些高分辨率切片,能够系统地探索细胞内部复杂的三维形态,为自动化生物图像分析奠定坚实的数据支撑。
解决学术问题
CellMap 2D数据集有效应对了生物图像分析中细胞器分割的长期挑战,解决了传统方法在复杂细胞环境下分割精度不足、泛化能力弱的问题。通过提供大规模、多样本的标注数据,该数据集促进了分割算法的鲁棒性提升,使得模型能够适应不同组织类型和成像条件。其意义在于推动了计算细胞生物学的发展,为理解细胞结构与功能关系提供了量化工具,加速了从微观图像到生物学发现的转化进程。
实际应用
在实际应用中,CellMap 2D数据集支撑了自动化细胞分析系统的开发,广泛应用于病理诊断、药物筛选和基础生物学研究。例如,在疾病模型中,利用该数据集训练的模型能够快速识别细胞器异常,辅助研究人员评估细胞健康状况。此外,这些数据在生物教育和技术培训中也扮演着重要角色,帮助培养新一代生物信息学人才,提升整个领域的数据驱动研究能力。
数据集最近研究
最新研究方向
在体积电子显微镜(volume electron microscopy)领域,细胞器分割技术正朝着高精度与自动化方向演进。CellMap 2D数据集作为CellMap分割挑战的核心资源,其二维切片数据为深度学习模型提供了丰富的训练基础。当前研究热点聚焦于利用Transformer架构与自监督学习策略,提升跨样本与跨轴线的泛化能力,以应对生物组织结构的复杂变异。相关挑战赛的举办进一步推动了算法在亚细胞结构解析中的实际应用,这些进展不仅加速了细胞生物学研究的量化进程,也为病理学与药物发现提供了更精细的观察工具。
以上内容由遇见数据集搜集并总结生成



