five

DiagSet|前列腺癌诊断数据集|深度学习数据集

收藏
arXiv2021-05-10 更新2024-06-21 收录
前列腺癌诊断
深度学习
下载链接:
https://ai-econsilio.diag.pl
下载链接
链接失效反馈
资源简介:
DiagSet是由诊断咨询有限公司创建的前列腺癌组织病理学图像数据集,包含430个完全注释的扫描和超过2.6百万个组织补丁。数据集旨在支持前列腺癌的检测和分类,通过深度学习技术提高诊断准确性。数据集内容包括不同Gleason等级的组织图像,以及由专业组织病理学家独立给出的诊断。创建过程中,数据集经过了严格的标注和质量控制,确保了数据的高质量和可靠性。该数据集的应用领域主要集中在前列腺癌的早期诊断和治疗方案的优化,旨在通过自动化技术减轻医生的工作负担,提高诊断效率和准确性。
提供机构:
诊断咨询有限公司
创建时间:
2021-05-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
DiagSet数据集的构建基于430个完全注释的扫描,提取了超过260万个组织补丁,并包含了4675个带有二元诊断的扫描,以及46个由一组病理学家独立给出的诊断。数据集的构建过程涉及从前列腺肿瘤患者的活检样本中随机选择显微镜标本,并使用经典的福尔马林-石蜡技术制作显微镜切片。随后,这些切片通过Hamamatsu C12000-22数字幻灯片扫描仪进行扫描,并使用NDP.server3软件进行管理和存储。数据集的注释由专业的病理学家完成,基于Gleason评分系统对前列腺组织进行分类。
使用方法
DiagSet数据集可用于训练和评估深度学习模型,特别是卷积神经网络(CNN),以进行前列腺癌的病理图像分类。研究人员可以使用该数据集来开发和验证用于检测癌变组织区域和预测扫描级别诊断的机器学习框架。数据集的多层次诊断信息和大规模注释数据为模型的训练提供了丰富的资源,有助于提高模型的准确性和鲁棒性。此外,数据集还可用于研究数据不平衡、标签噪声等因素对模型性能的影响,并为未来的研究提供基准。
背景与挑战
背景概述
DiagSet数据集是由波兰的Diagnostyka Consilio Sp. z o.o.公司和AGH科技大学联合创建的,专注于前列腺癌的组织病理学图像分类。该数据集包含了超过260万个从430个完全注释的扫描中提取的组织补丁,以及4675个带有二元诊断的扫描和46个由一组组织病理学家独立给出的诊断。DiagSet的创建旨在解决前列腺癌诊断中的专业医生短缺问题,通过利用现代分类系统基于深度学习技术来辅助诊断。该数据集的引入不仅为前列腺癌的检测提供了新的工具,还为机器学习模型在组织病理学图像分类中的应用提供了宝贵的资源。
当前挑战
DiagSet数据集在构建和应用过程中面临多个挑战。首先,标签噪声的存在是一个主要问题,由于Gleason评分的高度主观性,即使是整个扫描级别的诊断也可能存在差异。其次,数据不平衡问题显著,不同类别的样本数量差异大,这会影响分类模型的性能。此外,数据量的限制也是一个挑战,尽管从单个扫描中可以提取大量图像补丁,但这些补丁可能具有相似性,限制了模型的泛化能力。最后,构建过程中需要专业组织病理学家的参与,例如在准备和注释健康和受癌症影响的组织样本时,这增加了数据集构建的复杂性和成本。
常用场景
经典使用场景
DiagSet数据集在前列腺癌病理图像分类中具有经典应用场景。该数据集包含超过260万个从430个全注释扫描中提取的组织补丁,以及4675个带有二元诊断的扫描和46个由一组病理学家独立给出的诊断。这些数据为开发和验证用于检测癌变组织区域和预测扫描级别诊断的机器学习框架提供了丰富的资源。通过利用阈值和统计分析,该数据集支持在不确定情况下避免决策的模型训练,从而提高诊断的准确性和可靠性。
解决学术问题
DiagSet数据集解决了前列腺癌病理图像分类中的多个学术研究问题。首先,它为研究人员提供了一个大规模、高质量的数据集,用于开发和验证深度学习模型。其次,通过对比机器学习框架与人类病理学家的诊断结果,该数据集有助于评估和提升模型的性能。此外,数据集中的标签噪声、数据不平衡和数据量等因素的识别,为未来的研究提供了方向,促进了病理图像分类技术的进步。
实际应用
DiagSet数据集在实际应用中具有广泛的应用场景。它可以用于开发自动化的前列腺癌诊断系统,帮助病理学家快速、准确地评估患者的病情。此外,该数据集还可用于培训新一代的病理学家,通过模拟真实的病理图像,提高他们的诊断技能。在临床实践中,这种自动化的诊断工具可以显著减少诊断时间,提高诊断的一致性和准确性,从而改善患者的治疗效果。
数据集最近研究
最新研究方向
近年来,DiagSet数据集在前列腺癌病理图像分类领域引起了广泛关注。该数据集不仅提供了大量经过专业病理学家标注的图像,还引入了深度学习框架,用于检测癌变组织区域并预测扫描级别的诊断。前沿研究方向主要集中在优化深度神经网络的性能,通过集成学习、多尺度分析和统计假设检验等方法提高诊断准确性。相关热点事件包括使用DiagSet数据集进行的多项国际竞赛和挑战赛,这些活动推动了算法的创新和性能的提升。DiagSet数据集的影响和意义在于其为前列腺癌的早期诊断和治疗提供了强有力的工具,有望显著提高病理诊断的效率和准确性,从而改善患者预后。
相关研究论文
  • 1
    DiagSet: a dataset for prostate cancer histopathological image classification诊断咨询有限公司 · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录