five

DiagSet

收藏
arXiv2021-05-10 更新2024-06-21 收录
下载链接:
https://ai-econsilio.diag.pl
下载链接
链接失效反馈
官方服务:
资源简介:
DiagSet是由诊断咨询有限公司创建的前列腺癌组织病理学图像数据集,包含430个完全注释的扫描和超过2.6百万个组织补丁。数据集旨在支持前列腺癌的检测和分类,通过深度学习技术提高诊断准确性。数据集内容包括不同Gleason等级的组织图像,以及由专业组织病理学家独立给出的诊断。创建过程中,数据集经过了严格的标注和质量控制,确保了数据的高质量和可靠性。该数据集的应用领域主要集中在前列腺癌的早期诊断和治疗方案的优化,旨在通过自动化技术减轻医生的工作负担,提高诊断效率和准确性。

DiagSet is a prostate cancer histopathological image dataset developed by Diagnostics Consulting Co., Ltd. It contains 430 fully annotated scanned slides and over 2.6 million tissue patches. This dataset is designed to support the detection and classification of prostate cancer, and enhance diagnostic accuracy via deep learning technologies. The dataset encompasses tissue images with varying Gleason grades, alongside diagnoses independently issued by professional histopathologists. During its development, the dataset has undergone rigorous annotation and quality control processes to guarantee its high quality and reliability. Its primary application domains center on early diagnosis of prostate cancer and optimization of treatment regimens, with the goal of alleviating clinicians' workload through automated technologies, and boosting diagnostic efficiency and accuracy.
提供机构:
诊断咨询有限公司
创建时间:
2021-05-10
搜集汇总
数据集介绍
main_image_url
构建方式
DiagSet数据集的构建基于430个完全注释的扫描,提取了超过260万个组织补丁,并包含了4675个带有二元诊断的扫描,以及46个由一组病理学家独立给出的诊断。数据集的构建过程涉及从前列腺肿瘤患者的活检样本中随机选择显微镜标本,并使用经典的福尔马林-石蜡技术制作显微镜切片。随后,这些切片通过Hamamatsu C12000-22数字幻灯片扫描仪进行扫描,并使用NDP.server3软件进行管理和存储。数据集的注释由专业的病理学家完成,基于Gleason评分系统对前列腺组织进行分类。
使用方法
DiagSet数据集可用于训练和评估深度学习模型,特别是卷积神经网络(CNN),以进行前列腺癌的病理图像分类。研究人员可以使用该数据集来开发和验证用于检测癌变组织区域和预测扫描级别诊断的机器学习框架。数据集的多层次诊断信息和大规模注释数据为模型的训练提供了丰富的资源,有助于提高模型的准确性和鲁棒性。此外,数据集还可用于研究数据不平衡、标签噪声等因素对模型性能的影响,并为未来的研究提供基准。
背景与挑战
背景概述
DiagSet数据集是由波兰的Diagnostyka Consilio Sp. z o.o.公司和AGH科技大学联合创建的,专注于前列腺癌的组织病理学图像分类。该数据集包含了超过260万个从430个完全注释的扫描中提取的组织补丁,以及4675个带有二元诊断的扫描和46个由一组组织病理学家独立给出的诊断。DiagSet的创建旨在解决前列腺癌诊断中的专业医生短缺问题,通过利用现代分类系统基于深度学习技术来辅助诊断。该数据集的引入不仅为前列腺癌的检测提供了新的工具,还为机器学习模型在组织病理学图像分类中的应用提供了宝贵的资源。
当前挑战
DiagSet数据集在构建和应用过程中面临多个挑战。首先,标签噪声的存在是一个主要问题,由于Gleason评分的高度主观性,即使是整个扫描级别的诊断也可能存在差异。其次,数据不平衡问题显著,不同类别的样本数量差异大,这会影响分类模型的性能。此外,数据量的限制也是一个挑战,尽管从单个扫描中可以提取大量图像补丁,但这些补丁可能具有相似性,限制了模型的泛化能力。最后,构建过程中需要专业组织病理学家的参与,例如在准备和注释健康和受癌症影响的组织样本时,这增加了数据集构建的复杂性和成本。
常用场景
经典使用场景
DiagSet数据集在前列腺癌病理图像分类中具有经典应用场景。该数据集包含超过260万个从430个全注释扫描中提取的组织补丁,以及4675个带有二元诊断的扫描和46个由一组病理学家独立给出的诊断。这些数据为开发和验证用于检测癌变组织区域和预测扫描级别诊断的机器学习框架提供了丰富的资源。通过利用阈值和统计分析,该数据集支持在不确定情况下避免决策的模型训练,从而提高诊断的准确性和可靠性。
解决学术问题
DiagSet数据集解决了前列腺癌病理图像分类中的多个学术研究问题。首先,它为研究人员提供了一个大规模、高质量的数据集,用于开发和验证深度学习模型。其次,通过对比机器学习框架与人类病理学家的诊断结果,该数据集有助于评估和提升模型的性能。此外,数据集中的标签噪声、数据不平衡和数据量等因素的识别,为未来的研究提供了方向,促进了病理图像分类技术的进步。
实际应用
DiagSet数据集在实际应用中具有广泛的应用场景。它可以用于开发自动化的前列腺癌诊断系统,帮助病理学家快速、准确地评估患者的病情。此外,该数据集还可用于培训新一代的病理学家,通过模拟真实的病理图像,提高他们的诊断技能。在临床实践中,这种自动化的诊断工具可以显著减少诊断时间,提高诊断的一致性和准确性,从而改善患者的治疗效果。
数据集最近研究
最新研究方向
近年来,DiagSet数据集在前列腺癌病理图像分类领域引起了广泛关注。该数据集不仅提供了大量经过专业病理学家标注的图像,还引入了深度学习框架,用于检测癌变组织区域并预测扫描级别的诊断。前沿研究方向主要集中在优化深度神经网络的性能,通过集成学习、多尺度分析和统计假设检验等方法提高诊断准确性。相关热点事件包括使用DiagSet数据集进行的多项国际竞赛和挑战赛,这些活动推动了算法的创新和性能的提升。DiagSet数据集的影响和意义在于其为前列腺癌的早期诊断和治疗提供了强有力的工具,有望显著提高病理诊断的效率和准确性,从而改善患者预后。
相关研究论文
  • 1
    DiagSet: a dataset for prostate cancer histopathological image classification诊断咨询有限公司 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作