five

Camelyon+|医学病理学数据集|人工智能数据集

收藏
arXiv2024-11-16 更新2024-11-20 收录
医学病理学
人工智能
下载链接:
https://doi.org/10.57760/sciencedb.16442
下载链接
链接失效反馈
资源简介:
Camelyon+数据集是由中国医学科学院北京协和医学院肿瘤医院深圳医院创建,用于评估乳腺癌淋巴结转移的计算病理学任务。该数据集包含1350张全切片图像(WSIs),分为四类:阴性、微转移、宏转移和孤立肿瘤细胞(ITC)。数据集的创建过程包括对Camelyon-16和Camelyon-17数据集的重新处理,去除了低质量的切片,修正了错误的标签,并提供了专家像素级注释。Camelyon+数据集主要应用于AI驱动的病理图像分析,旨在提高乳腺癌淋巴结转移检测的准确性和效率。
提供机构:
中国医学科学院北京协和医学院肿瘤医院深圳医院
创建时间:
2024-11-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
Camelyon+数据集的构建基于Camelyon-16和Camelyon-17数据集的重新处理,通过去除低质量的切片、修正错误的标签以及为先前未发布的测试集提供专家像素级注释,从而提升了数据集的质量和临床相关性。具体而言,研究团队筛选并移除了模糊、染色不良、治疗相关伪影或阳性不明确的切片,并将Camelyon-16的二分类标签扩展为四分类系统,包括负性、微转移、宏转移和孤立肿瘤细胞(ITC),以促进两个数据集的合并。最终,通过这些修正和扩展,形成了包含1,350张全切片图像的Camelyon+数据集。
使用方法
Camelyon+数据集适用于多种计算病理学任务,特别是基于多实例学习(MIL)的深度学习策略,用于预测淋巴结转移类型。研究者可以使用数据集中的全切片图像(WSIs)和相应的标签进行模型训练和验证,利用提供的特征文件进行快速实验和对比分析。数据集的公开性和详细的使用说明,使得研究者能够轻松地进行数据下载、处理和模型评估,为计算病理学领域的进一步研究提供了坚实的基础。
背景与挑战
背景概述
Camelyon+数据集是在计算病理学(CPath)领域中,由Xitong Ling等研究人员于2024年重新处理和扩展的。该数据集基于Camelyon-16和Camelyon-17数据集,旨在解决乳腺癌淋巴结转移检测中的关键问题。通过去除低质量的切片、修正错误标签以及提供专家级别的像素级注释,Camelyon+不仅提升了数据集的质量和临床相关性,还将其从二分类任务升级为四分类任务,包括负样本、微转移、宏转移和孤立肿瘤细胞(ITC)。这一改进显著推动了AI在病理学中的应用,特别是在全切片图像(WSI)分析方面,为病理特征提取和下游任务提供了更为丰富的基准。
当前挑战
Camelyon+数据集在构建过程中面临多项挑战。首先,病理图像的高分辨率和专业注释需求使得获取大规模精细注释数据集变得极为困难。其次,原始Camelyon数据集中存在图像质量差、治疗相关伪影以及标签错误等问题,这些问题在重新处理过程中需要逐一解决。此外,Camelyon+引入的四分类任务相较于传统的二分类任务更为复杂,特别是在处理类间不平衡问题上,如ITC类别的样本稀少,这增加了模型训练和评估的难度。最后,尽管Camelyon+提供了高质量的基准,但其长尾分布特性仍对模型的泛化能力和临床应用提出了新的挑战。
常用场景
经典使用场景
Camelyon+数据集在计算病理学领域中被广泛用于评估多种实例学习(MIL)方法,特别是在乳腺癌淋巴结转移检测方面。通过提供高质量的整片图像(WSIs)和精细的像素级注释,该数据集支持了从二分类到四分类任务的扩展,涵盖了从无转移、微小转移、宏观转移到孤立肿瘤细胞(ITC)的多种情况。这种多层次的分类任务使得研究人员能够更全面地评估和改进基于深度学习的病理图像分析模型。
解决学术问题
Camelyon+数据集通过提供经过专业病理学家校正的高质量图像和标签,解决了传统Camelyon数据集中存在的图像质量差、标签错误和注释不准确等问题。这不仅提高了模型训练和评估的可靠性,还推动了计算病理学领域中基础模型的发展,特别是在预训练特征提取器和多实例学习方法的评估方面。通过这种改进,Camelyon+数据集为病理图像分析提供了更为坚实的基础,促进了该领域的学术研究和技术进步。
实际应用
在实际应用中,Camelyon+数据集为开发和验证基于人工智能的病理诊断工具提供了宝贵的资源。例如,医疗机构可以利用该数据集训练和优化算法,以辅助病理学家在乳腺癌淋巴结转移的检测中提高诊断的准确性和效率。此外,该数据集还可用于开发远程病理诊断系统,通过数字化病理图像的分析,支持偏远地区的医疗诊断服务,从而提升整体医疗水平。
数据集最近研究
最新研究方向
在乳腺癌病理学领域,Camelyon+数据集的最新研究方向主要集中在提升病理图像分析的准确性和可靠性。通过重新处理和校正Camelyon-16和Camelyon-17数据集中的1,399张全切片图像(WSIs),研究团队不仅去除了低质量的切片,还修正了标签错误,并提供了专家级别的像素级注释。这一改进将原本的二分类任务升级为四分类任务,包括负性、微转移、宏转移和孤立肿瘤细胞(ITC)。此外,研究还重新评估了预训练的病理特征提取器和多种实例学习(MIL)方法,为AI在病理学中的应用提供了更为精确的基准。这些努力不仅推动了AI在病理学中的发展,也为未来的研究奠定了坚实的基础。
相关研究论文
  • 1
    Towards a Comprehensive Benchmark for Pathological Lymph Node Metastasis in Breast Cancer Sections中国医学科学院北京协和医学院肿瘤医院深圳医院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录