OCASD (Otoscopic Classification And Summary Dataset)
收藏github2024-08-24 更新2024-08-29 收录
下载链接:
https://github.com/anas2908/Sumotosima
下载链接
链接失效反馈官方服务:
资源简介:
OCASD数据集包含500张耳镜图像,分为5个独特类别,并由耳鼻喉科医生标注了类别和摘要,用于分类和生成耳镜图像的摘要。
The OCASD dataset consists of 500 otoscopic images divided into 5 distinct categories. It has been annotated with category labels and summaries by otolaryngologists, and is designed for otoscopic image classification and summary generation tasks.
创建时间:
2024-08-10
原始信息汇总
Sumotosima 数据集概述
数据集简介
Sumotosima(Sumariser for otoscopic image)是一个用于中耳耳镜图像分类和生成摘要的新框架和数据集。该框架旨在开发既定义明确又适合患者的摘要,以解决医疗专业人员因繁忙日程和每位患者有限时间而提供的解释不足的问题。
数据集内容
- 数据集名称:OCASD(Otoscopic Classification And Summary Dataset)
- 数据量:包含500张图像
- 类别数:5个独特类别
- 标注信息:每张图像都由耳鼻喉科医生标注了类别和摘要
性能指标
- 分类任务:Sumotosima在分类任务中达到了98.03%的准确率,分别比K-Nearest Neighbors、Random Forest和Support Vector Machines高出7.00%、3.10%和3.01%。
- 摘要生成:在ROUGE评分中,Sumotosima分别比GPT-4o和LLaVA高出88.53%和107.57%。
引用信息
@misc{khan2024sumotosimaframeworkdatasetclassifying, title={Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images}, author={Eram Anwarul Khan and Anas Anwarul Haq Khan}, year={2024}, eprint={2408.06755}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.06755}, }
搜集汇总
数据集介绍

构建方式
在耳镜检查领域,为了弥补现有数据集的不足,我们精心构建了OCASD(耳镜分类与总结数据集)。该数据集包含500张耳镜图像,涵盖5个独特的类别,并由耳鼻喉科专家进行标注和总结。通过结合图像和文本信息,我们确保了数据集的高质量和高相关性,旨在为深度学习和变压器模型提供一个全面且精确的训练资源。
特点
OCASD数据集的显著特点在于其多模态融合和专业标注。数据集不仅包含了高质量的耳镜图像,还附有由耳鼻喉科专家编写的详细总结,确保了信息的准确性和实用性。此外,数据集的分类和总结任务设计,旨在提高模型的理解和生成能力,使其生成的总结既专业又易于患者理解。
使用方法
使用OCASD数据集时,研究者可以将其应用于多种深度学习和变压器模型的训练与评估。数据集的图像和文本数据可以分别用于图像分类和文本生成任务,或者通过多模态融合技术进行联合训练。通过使用该数据集,研究者可以开发出能够自动分类和生成耳镜图像总结的先进模型,从而提高医疗诊断的效率和患者沟通的清晰度。
背景与挑战
背景概述
在耳科诊断领域,耳镜检查(Otoscopy)是一种用于检查耳道和鼓膜的诊断程序,能够识别感染、异物、鼓膜穿孔及耳部异常等病症。然而,由于医疗专业人员工作繁忙,患者往往难以获得详尽的解释。为此,Eram Anwarul Khan和Anas Anwarul Haq Khan于2024年提出了Sumotosima框架,旨在通过深度学习和变压器技术,对耳镜图像进行分类并生成患者友好的总结。该框架结合了三重损失和交叉熵损失,并采用了知识增强的多模态BART模型,以融合文本和图像嵌入。为支持这一研究,他们创建了OCASD数据集,包含500张图像,分为5个类别,并由耳鼻喉科专家进行标注和总结。该数据集的发布填补了现有数据集的空白,为耳镜图像的分类和总结提供了宝贵的资源。
当前挑战
尽管OCASD数据集在耳镜图像分类和总结方面取得了显著成果,但其构建和应用过程中仍面临若干挑战。首先,数据集的规模相对较小,仅包含500张图像,可能限制了模型的泛化能力。其次,图像的多样性和复杂性,尤其是在不同光照条件和患者个体差异下,增加了分类和总结的难度。此外,生成患者友好的总结需要平衡专业术语和通俗易懂的表达,这对模型的语言生成能力提出了更高要求。最后,数据集的标注依赖于耳鼻喉科专家,标注过程的复杂性和时间成本也是一大挑战。这些挑战需要在未来的研究中进一步解决,以提升数据集的应用价值和模型的性能。
常用场景
经典使用场景
在耳科诊断领域,OCASD数据集的经典使用场景主要集中在通过深度学习和变换器技术对耳镜图像进行分类和生成摘要。该数据集支持开发能够生成清晰且患者友好的耳镜图像摘要的模型,有效弥补了医疗专业人员因时间紧张而无法提供充分解释的不足。
实际应用
在实际应用中,OCASD数据集被广泛用于开发和优化耳科诊断工具。这些工具能够自动生成耳镜图像的详细摘要,帮助医生更高效地与患者沟通,提升诊断的透明度和患者满意度。此外,该数据集还支持开发智能辅助诊断系统,提高耳科疾病的早期检测和治疗效果。
衍生相关工作
基于OCASD数据集,已衍生出多项经典工作,包括改进的深度学习模型和变换器架构,这些模型在耳镜图像分类和摘要生成任务中表现优异。此外,该数据集还促进了多模态BART模型的应用,通过融合文本和图像嵌入,进一步提升了摘要生成的质量和效率。这些相关工作不仅在学术界引起了广泛关注,也在实际医疗应用中展现了巨大潜力。
以上内容由遇见数据集搜集并总结生成



