five

甲状腺结节超声图像数据集|医学影像分析数据集|甲状腺结节分类数据集

收藏
arXiv2023-05-05 更新2024-08-06 收录
医学影像分析
甲状腺结节分类
下载链接:
http://arxiv.org/abs/2207.13765v2
下载链接
链接失效反馈
资源简介:
本研究使用了一个包含378个甲状腺结节的超声图像数据集,该数据集由杜克大学收集。数据集中的图像来自不同的超声设备,主要用于评估深度学习算法在甲状腺结节分类中的性能。数据集的创建过程涉及从电子医疗记录中筛选患者,排除不符合条件的病例,最终形成用于分析的图像集。该数据集主要用于医学影像分析,特别是甲状腺结节的良恶性分类,旨在辅助医生进行更准确的诊断。
提供机构:
杜克大学
创建时间:
2022-07-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
甲状腺结节超声图像数据集的构建基于320名患者的378个甲状腺结节,每个结节包含横向和纵向两幅超声图像,共计756幅图像。数据来源于电子病历系统,经过严格的筛选流程,排除了无超声图像、滤泡性结节、单视角图像等不符合要求的样本。所有图像由经验丰富的放射科医生进行审核,确保数据的准确性和一致性。图像采集自9种不同的超声设备,涵盖了多种制造商和型号,以增强数据集的多样性和泛化能力。
特点
该数据集的特点在于其多样性和复杂性。首先,数据集涵盖了多种超声设备生成的图像,确保了模型在不同设备上的泛化能力。其次,所有结节均经过细针穿刺活检(FNA)验证,病理结果作为金标准,确保了数据的可靠性。此外,数据集中恶性结节的比例较高(39%),远高于一般甲状腺结节的恶性率,这为模型提供了更具挑战性的测试环境。最后,数据集中的图像经过标准化处理,确保每幅图像具有相同的分辨率和格式,便于后续的深度学习模型训练和评估。
使用方法
该数据集主要用于甲状腺结节良恶性分类的深度学习模型训练和验证。研究人员可以使用该数据集来评估模型在不同超声设备上的表现,并比较其与放射科医生的诊断效果。具体使用步骤包括:首先,将数据集划分为训练集和测试集,确保测试集与训练集来自不同的设备类型;其次,使用深度学习模型对结节进行分类,输出结节的恶性概率;最后,通过计算AUC等指标评估模型的性能,并与放射科医生的诊断结果进行对比。此外,研究人员还可以通过分析不同设备类型对模型性能的影响,进一步优化模型的泛化能力。
背景与挑战
背景概述
甲状腺结节超声图像数据集由杜克大学的研究团队于2020年创建,旨在通过深度学习算法对甲状腺结节的良恶性进行分类。该数据集包含378个甲状腺结节的756张超声图像,涵盖了来自不同制造商的多种超声设备。研究团队通过对比深度学习算法与放射科医生的诊断结果,验证了算法在独立数据集上的表现。该数据集的核心研究问题在于如何利用深度学习技术提高甲状腺结节分类的准确性和一致性,尤其是在面对不同设备和机构的数据时。该研究为医学影像领域提供了重要的参考,推动了深度学习在甲状腺结节诊断中的应用。
当前挑战
该数据集面临的挑战主要包括两个方面。首先,甲状腺结节的良恶性分类本身具有较高的复杂性,尤其是在超声图像中,结节的形态、边界、回声等特征多样,容易导致误判。其次,数据集的构建过程中,研究者需要处理来自不同制造商和型号的超声设备生成的图像,这些图像在分辨率、对比度和后处理方式上存在显著差异,增加了模型训练的难度。此外,数据集中恶性结节的比例较高,可能导致模型在实际应用中的泛化能力受限。这些挑战要求研究者在算法设计和数据预处理上投入更多精力,以确保模型在不同设备和数据源上的鲁棒性。
常用场景
经典使用场景
甲状腺结节超声图像数据集在医学影像分析领域具有重要应用,特别是在甲状腺结节的良恶性分类任务中。该数据集通过提供大量经过病理验证的甲状腺结节超声图像,为深度学习模型的训练和验证提供了坚实的基础。其经典使用场景包括利用卷积神经网络(CNN)进行结节检测和分类,帮助医生更准确地判断结节的恶性风险。
解决学术问题
该数据集解决了医学影像分析中常见的泛化性问题。传统深度学习模型往往依赖于单一机构的训练数据,导致在新环境中的表现不佳。通过引入来自不同机构和不同超声设备的独立数据集,该研究验证了深度学习模型在不同设备上的鲁棒性,显著提升了模型在实际临床环境中的适用性。此外,该数据集还帮助解决了甲状腺结节分类中的高误诊率问题,为医生提供了更可靠的辅助诊断工具。
衍生相关工作
该数据集衍生了许多相关研究,特别是在甲状腺结节分类和深度学习模型优化领域。例如,基于该数据集的研究进一步探索了多任务学习框架,结合结节检测和分类任务,提升了模型的整体性能。此外,一些研究还利用该数据集开发了跨设备泛化能力更强的深度学习模型,为医学影像分析领域的模型泛化问题提供了新的解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录