five

OCASD (Otoscopic Classification And Summary Dataset)|医学图像分类数据集|图像摘要生成数据集

收藏
github2024-08-24 更新2024-08-29 收录
医学图像分类
图像摘要生成
下载链接:
https://github.com/anas2908/Sumotosima
下载链接
链接失效反馈
资源简介:
OCASD数据集包含500张耳镜图像,分为5个独特类别,并由耳鼻喉科医生标注了类别和摘要,用于分类和生成耳镜图像的摘要。
创建时间:
2024-08-10
原始信息汇总

Sumotosima 数据集概述

数据集简介

Sumotosima(Sumariser for otoscopic image)是一个用于中耳耳镜图像分类和生成摘要的新框架和数据集。该框架旨在开发既定义明确又适合患者的摘要,以解决医疗专业人员因繁忙日程和每位患者有限时间而提供的解释不足的问题。

数据集内容

  • 数据集名称:OCASD(Otoscopic Classification And Summary Dataset)
  • 数据量:包含500张图像
  • 类别数:5个独特类别
  • 标注信息:每张图像都由耳鼻喉科医生标注了类别和摘要

性能指标

  • 分类任务:Sumotosima在分类任务中达到了98.03%的准确率,分别比K-Nearest Neighbors、Random Forest和Support Vector Machines高出7.00%、3.10%和3.01%。
  • 摘要生成:在ROUGE评分中,Sumotosima分别比GPT-4o和LLaVA高出88.53%和107.57%。

引用信息

@misc{khan2024sumotosimaframeworkdatasetclassifying, title={Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images}, author={Eram Anwarul Khan and Anas Anwarul Haq Khan}, year={2024}, eprint={2408.06755}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.06755}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在耳镜检查领域,为了弥补现有数据集的不足,我们精心构建了OCASD(耳镜分类与总结数据集)。该数据集包含500张耳镜图像,涵盖5个独特的类别,并由耳鼻喉科专家进行标注和总结。通过结合图像和文本信息,我们确保了数据集的高质量和高相关性,旨在为深度学习和变压器模型提供一个全面且精确的训练资源。
特点
OCASD数据集的显著特点在于其多模态融合和专业标注。数据集不仅包含了高质量的耳镜图像,还附有由耳鼻喉科专家编写的详细总结,确保了信息的准确性和实用性。此外,数据集的分类和总结任务设计,旨在提高模型的理解和生成能力,使其生成的总结既专业又易于患者理解。
使用方法
使用OCASD数据集时,研究者可以将其应用于多种深度学习和变压器模型的训练与评估。数据集的图像和文本数据可以分别用于图像分类和文本生成任务,或者通过多模态融合技术进行联合训练。通过使用该数据集,研究者可以开发出能够自动分类和生成耳镜图像总结的先进模型,从而提高医疗诊断的效率和患者沟通的清晰度。
背景与挑战
背景概述
在耳科诊断领域,耳镜检查(Otoscopy)是一种用于检查耳道和鼓膜的诊断程序,能够识别感染、异物、鼓膜穿孔及耳部异常等病症。然而,由于医疗专业人员工作繁忙,患者往往难以获得详尽的解释。为此,Eram Anwarul Khan和Anas Anwarul Haq Khan于2024年提出了Sumotosima框架,旨在通过深度学习和变压器技术,对耳镜图像进行分类并生成患者友好的总结。该框架结合了三重损失和交叉熵损失,并采用了知识增强的多模态BART模型,以融合文本和图像嵌入。为支持这一研究,他们创建了OCASD数据集,包含500张图像,分为5个类别,并由耳鼻喉科专家进行标注和总结。该数据集的发布填补了现有数据集的空白,为耳镜图像的分类和总结提供了宝贵的资源。
当前挑战
尽管OCASD数据集在耳镜图像分类和总结方面取得了显著成果,但其构建和应用过程中仍面临若干挑战。首先,数据集的规模相对较小,仅包含500张图像,可能限制了模型的泛化能力。其次,图像的多样性和复杂性,尤其是在不同光照条件和患者个体差异下,增加了分类和总结的难度。此外,生成患者友好的总结需要平衡专业术语和通俗易懂的表达,这对模型的语言生成能力提出了更高要求。最后,数据集的标注依赖于耳鼻喉科专家,标注过程的复杂性和时间成本也是一大挑战。这些挑战需要在未来的研究中进一步解决,以提升数据集的应用价值和模型的性能。
常用场景
经典使用场景
在耳科诊断领域,OCASD数据集的经典使用场景主要集中在通过深度学习和变换器技术对耳镜图像进行分类和生成摘要。该数据集支持开发能够生成清晰且患者友好的耳镜图像摘要的模型,有效弥补了医疗专业人员因时间紧张而无法提供充分解释的不足。
实际应用
在实际应用中,OCASD数据集被广泛用于开发和优化耳科诊断工具。这些工具能够自动生成耳镜图像的详细摘要,帮助医生更高效地与患者沟通,提升诊断的透明度和患者满意度。此外,该数据集还支持开发智能辅助诊断系统,提高耳科疾病的早期检测和治疗效果。
衍生相关工作
基于OCASD数据集,已衍生出多项经典工作,包括改进的深度学习模型和变换器架构,这些模型在耳镜图像分类和摘要生成任务中表现优异。此外,该数据集还促进了多模态BART模型的应用,通过融合文本和图像嵌入,进一步提升了摘要生成的质量和效率。这些相关工作不仅在学术界引起了广泛关注,也在实际医疗应用中展现了巨大潜力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录