five

CAnine cuTaneous Cancer Histology (CATCH) dataset

收藏
arXiv2022-08-26 更新2024-06-21 收录
下载链接:
https://doi.org/10.7937/TCIA.2M93-FX66
下载链接
链接失效反馈
官方服务:
资源简介:
CATCH数据集是由德国埃尔朗根-纽伦堡大学计算机科学系模式识别实验室和柏林自由大学兽医病理学研究所合作创建的,专注于犬类皮肤肿瘤的组织学图像。数据集包含350张完整的切片图像,涵盖7种不同的皮肤肿瘤亚型,并附有12,424个多边形标注,涉及13种组织类型。创建过程中,样本从282只犬的活检档案中选取,经过标准化处理和数字化。该数据集不仅适用于兽医病理学,还可扩展至更广泛的应用领域,如比较人类和犬类肿瘤的组织学相似性,旨在解决肿瘤亚型分类和组织分割的问题。

The CATCH dataset was collaboratively developed by the Pattern Recognition Lab, Department of Computer Science, Friedrich-Alexander University Erlangen-Nuremberg and the Institute of Veterinary Pathology, Freie Universität Berlin. It focuses on histopathological images of canine skin tumors. The dataset consists of 350 full-slide histopathological images, covering 7 distinct subtypes of skin tumors, and is accompanied by 12,424 polygonal annotations spanning 13 tissue types. During its construction, samples were selected from the biopsy archives of 282 dogs, and underwent standardization and digitization. This dataset is not only applicable to veterinary pathology, but also can be extended to broader application scenarios such as comparing the histopathological similarities between human and canine tumors, and aims to address the challenges of tumor subtype classification and tissue segmentation.
提供机构:
埃尔朗根-纽伦堡大学计算机科学系模式识别实验室
创建时间:
2022-01-27
搜集汇总
数据集介绍
main_image_url
构建方式
在皮肤肿瘤组织病理学领域,精准区分不同亚型对诊断至关重要。CATCH数据集的构建始于对柏林自由大学兽医病理学研究所存档的350份犬类皮肤肿瘤样本的系统性回顾。样本涵盖七种常见肿瘤亚型,每种各50例,经福尔马林固定、石蜡包埋后,采用苏木精-伊红染色制备组织切片。数字化过程主要使用Leica ScanScope CS2线性扫描系统,以0.2533微米/像素的分辨率获取全切片图像,确保图像质量的一致性。标注工作由资深病理学家主导,借助SlideRunner开源软件对13个组织类别进行多边形轮廓标注,累计生成12,424个标注区域,并通过EXACT平台进行质量监控与版本管理。
使用方法
研究人员可通过癌症影像档案公开获取该数据集,并利用其进行组织分割与肿瘤分类任务。在分割任务中,可采用UNet等架构,以4微米/像素的分辨率输入图像块,结合自适应采样策略以应对类别不平衡问题。对于肿瘤亚型分类,建议使用EfficientNet等网络,在0.25微米/像素的高分辨率下训练,以区分七种肿瘤亚型及非肿瘤组织。数据集提供了训练、验证与测试集的明确划分,并附有GitHub代码库,包含数据加载、模型训练及结果可视化示例。标注可视化推荐使用SlideRunner或EXACT开源工具,支持标注扩展与交互式分析。通过两阶段推理流程——先分割肿瘤区域,再对肿瘤区域进行分类——可实现全切片级别的自动化诊断,为计算机辅助病理系统开发提供基准。
背景与挑战
背景概述
在数字病理学领域,犬类皮肤肿瘤的组织学分析因其与人类肿瘤的形态学同源性而备受关注。CATCH数据集由德国埃尔朗根-纽伦堡大学模式识别实验室与柏林自由大学兽医病理学研究所等机构于2022年联合创建,旨在提供大规模、高质量的全切片图像资源。该数据集包含350张全切片图像,涵盖七种常见犬类皮肤肿瘤亚型,并辅以13个组织类别的12,424个多边形标注。其核心研究问题聚焦于通过深度学习算法辅助病理学家实现肿瘤组织的精准分割与亚型分类,从而提升诊断效率与一致性。该资源的公开不仅推动了兽医病理学的计算化进程,也为人类肿瘤研究提供了跨物种的参考模型,在生物医学图像分析领域具有显著的学术影响力。
当前挑战
CATCH数据集致力于解决组织病理学中肿瘤分割与亚型分类的双重挑战。在领域问题层面,犬类皮肤肿瘤亚型间存在显著的形态学相似性,尤其是圆形细胞肿瘤的鉴别需依赖细微的细胞级特征,这对算法的特征提取能力提出了较高要求。构建过程中的挑战主要体现在标注环节:首先,炎症与坏死区域与肿瘤组织边界模糊,导致标注者间一致性较低,如该类别广义一致性指数仅为0.3302;其次,真皮与皮下组织的解剖学过渡区域难以精确界定,需通过合并类别以提升标注可靠性。此外,数据集中部分切片由不同扫描系统数字化,虽通过均衡分布缓解了域偏移问题,但仍对模型的泛化性能构成潜在考验。
常用场景
经典使用场景
在数字病理学领域,CATCH数据集为犬类皮肤肿瘤的组织病理学分析提供了标准化基准。该数据集包含350张全切片图像和12,424个多边形标注,涵盖七种常见犬类皮肤肿瘤亚型和六种正常组织类别。研究者通常利用该数据集开发深度学习模型,实现组织区域的自动分割与肿瘤亚型的精确分类。通过统一的数据格式和标注规范,该数据集有效支持了计算机辅助诊断系统的训练与验证,成为跨物种肿瘤形态学研究的重要资源。
解决学术问题
CATCH数据集主要解决了组织病理学图像分析中标注数据稀缺的瓶颈问题。其高质量的多专家标注为监督学习算法提供了可靠基础,显著降低了模型开发中的标注成本。该数据集通过提供犬类与人类肿瘤的形态学同源性证据,拓展了比较肿瘤学的研究维度。在方法学层面,数据集支持组织分割与分类任务的联合优化,为处理类间不平衡、组织边界模糊等挑战提供了实证平台,推动了领域自适应与多任务学习算法的发展。
实际应用
该数据集在兽医临床诊断中具有直接应用价值,可辅助病理学家快速识别犬类皮肤肿瘤亚型,提升诊断效率与一致性。在药物研发领域,基于该数据集训练的模型能够用于临床前试验的病理评估,加速抗癌药物的转化研究。此外,数据集通过TCIA平台公开共享,为教育机构提供了高质量的教学资源,支持数字病理学人才的培养。其跨物种相关性进一步延伸至人类皮肤肿瘤研究,为开发通用型诊断工具奠定了基础。
数据集最近研究
最新研究方向
在数字病理学领域,CATCH数据集的推出为犬类皮肤肿瘤的深度学习研究开辟了新路径。该数据集包含350张全切片图像及逾万标注,覆盖七种肿瘤亚型和六种组织类别,其标注一致性与算法验证结果凸显了其在兽医与人类肿瘤形态学同源性研究中的价值。当前前沿研究聚焦于利用该数据集开发多任务学习框架,整合组织分割与肿瘤亚型分类,以提升模型在复杂组织边界(如炎症与坏死区域)的判别能力。同时,研究者正探索跨扫描仪域泛化策略,以应对不同数字化系统带来的数据偏差,推动算法在临床环境中的稳健应用。这一进展不仅助力兽医病理诊断的自动化,也为人类皮肤肿瘤的计算机辅助分析提供了跨物种参考模型。
相关研究论文
  • 1
    Pan-tumor CAnine cuTaneous Cancer Histology (CATCH) dataset埃尔朗根-纽伦堡大学计算机科学系模式识别实验室 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作