five

SZH Dataset

收藏
arXiv2024-04-10 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2308.10610v4
下载链接
链接失效反馈
官方服务:
资源简介:
SZH Dataset是由广州医科大学的第二附属医院和佛山市三水区人民医院共同创建的大型耳内镜图像数据集,包含8种耳病和正常样本,共计24,233张图像。该数据集通过专家分类,确保了图像的质量和准确性。数据集的创建旨在解决深度学习模型在耳病诊断中的实际应用问题,特别是在模型推理速度和参数大小之间的平衡。该数据集的应用领域包括实时耳病诊断,帮助公众和医疗提供者在实时视频中进行全面的耳道扫描和诊断,及时发现耳部病变。

The SZH Dataset is a large-scale otoscopic image dataset jointly developed by the Second Affiliated Hospital of Guangzhou Medical University and Sanshui District People's Hospital of Foshan. It contains 24,233 images covering 8 types of ear diseases and normal samples. All images are classified by medical experts to ensure their quality and labeling accuracy. The dataset was created to address the practical application challenges of deep learning models in ear disease diagnosis, particularly the trade-off between model inference speed and parameter size. Its application scenarios include real-time ear disease diagnosis, assisting the public and medical providers to perform comprehensive ear canal scanning and diagnosis via real-time videos, so as to detect ear lesions in a timely manner.
提供机构:
广州医科大学
创建时间:
2023-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在耳科疾病智能诊断领域,数据集的规模与多样性是模型泛化能力的关键。SZH Dataset的构建严格遵循临床研究伦理,其核心数据来源于深圳大学第二附属医院耳鼻喉科2016年至2022年间的诊疗记录,并辅以佛山市三水区人民医院的外部验证集。数据采集过程由四位拥有超过15年临床经验的耳科专家共同完成,对总计24,233张耳内窥镜图像进行了精细标注,涵盖急性中耳炎、胆脂瘤、慢性化脓性中耳炎等八种常见耳部疾病及正常鼓膜共九个类别。为确保数据的代表性与公平性,构建过程中对每位患者的入选图像数量进行了限制,并剔除了所有模糊或难以辨别的样本,最终形成了目前该领域规模最大、标注权威的内部与外部验证数据集。
特点
该数据集的核心特征体现在其规模、多样性与严谨的临床基础上。作为首个大规模耳内窥镜图像数据集,其总量超过两万四千张,为深度学习模型提供了充足的训练样本。多样性不仅体现在疾病类别的全面覆盖,更深入至人口统计学维度,数据详细记录了患者的性别与年龄分布,确保了模型在不同人群中的评估可靠性。数据集严格区分了内部训练验证集与独立的外部测试集,这种划分方式能够有效评估模型在未见数据上的泛化性能与临床实用潜力。其标注由资深专家团队完成,并遵循了严格的医学伦理审查,为后续研究提供了高质量、可信赖的基准。
使用方法
该数据集主要用于开发与验证轻量级、高精度的耳科疾病实时智能诊断模型。研究人员可首先利用其内部数据集进行模型的训练与五折交叉验证,以充分评估模型的诊断准确性、召回率等核心指标。随后,必须使用独立的外部测试集对模型性能进行最终验证,模拟其在真实临床新场景下的表现。数据集支持对模型在不同性别、年龄亚组中的性能进行深入分析,以检验其临床普适性。基于此数据集训练的模型,可进一步集成至移动设备、平板电脑或个人计算机等边缘计算平台,最终部署为能够处理实时视频流的辅助诊断系统,为医疗资源匮乏地区或非专科医生提供有效的决策支持。
背景与挑战
背景概述
SZH数据集是耳科内窥镜图像分析领域的重要基准,由广州医科大学、深圳大学第二附属医院及中国科学院等机构的研究团队于2024年构建。该数据集旨在解决耳科疾病智能诊断中数据稀缺的核心瓶颈,涵盖急性中耳炎、胆脂瘤、慢性化脓性中耳炎等八类常见耳部疾病及正常鼓膜样本,图像总量达24,233张,源自两家医疗机构超过六年的临床积累。其创建推动了轻量化卷积神经网络在实时耳部病变诊断中的应用,为开发部署于移动设备的智能辅助系统提供了关键数据支撑,显著提升了模型在多样人群与临床环境中的泛化能力。
当前挑战
该数据集致力于解决耳科疾病多类别图像分类的挑战,其难点在于不同病变在视觉特征上存在高度相似性,如各类中耳炎均表现为鼓膜区域的细微纹理与颜色变化,导致特征空间重叠度高,分类边界模糊。在构建过程中,研究团队面临数据标注一致性难题,需依赖多位资深耳科专家对大量内窥镜图像进行精细分类与审核,以消除标注歧义;同时,数据采集需跨越不同医疗机构,整合多源异构图像,并兼顾患者年龄、性别及病程阶段的多样性,以确保数据集的临床代表性与平衡性。
常用场景
经典使用场景
在耳科医学影像分析领域,SZH数据集作为首个大规模耳内窥镜图像集合,其经典应用场景在于为深度学习模型提供多样化的训练与验证基础。该数据集涵盖了八种常见耳部疾病及正常鼓膜的图像,为研究者构建高精度分类模型奠定了数据基石。通过五折交叉验证,模型能够在内部数据集上达到95.23%的准确率,展现了其在标准化实验环境下的卓越性能。
衍生相关工作
SZH数据集的构建推动了轻量化卷积神经网络在耳科影像分析中的创新应用。以ShuffleNetV2为基础架构,研究者提出了融合局部-全局空间特征模块与多尺度监督策略的Best-EarNet网络,在参数量仅0.77M的条件下实现了80 FPS的实时推理速度。该工作进一步催生了针对移动设备、平板及个人电脑的多平台部署方案,为后续面向边缘计算的耳疾病智能诊断研究确立了新的性能基准与架构范式。
数据集最近研究
最新研究方向
在耳科医学影像智能诊断领域,SZH Dataset的构建标志着大规模、多中心耳内镜数据资源的重大突破。该数据集涵盖八种常见耳部疾病及正常样本,为深度学习模型提供了前所未有的多样性基础。当前前沿研究聚焦于超轻量、超快速卷积神经网络的设计与优化,旨在实现模型推理速度与参数规模之间的最佳平衡,以适配边缘计算设备(如智能手机、平板电脑)的实时诊断需求。热点方向包括局部-全局空间特征融合模块的创新、多尺度监督策略的应用,以及模型可解释性技术的集成,这些进展共同推动了智能诊断系统(如Ear-Keeper)在临床实践中的部署。其影响在于显著提升了耳部疾病识别的准确性与效率,为医疗资源匮乏地区提供了可及的辅助诊断工具,对降低误诊率、改善患者预后具有深远意义。
相关研究论文
  • 1
    Ear-Keeper: Real-time Diagnosis of Ear Lesions Utilizing Ultralight-Ultrafast ConvNet and Large-scale Ear Endoscopic Dataset广州医科大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作