LMOD
收藏arXiv2024-10-03 更新2024-10-09 收录
下载链接:
https://arxiv.org/pdf/2410.01620v2
下载链接
链接失效反馈官方服务:
资源简介:
LMOD(Large Multimodal Ophthalmology Dataset)是一个大规模的多模态眼科数据集,由耶鲁大学等机构创建。该数据集包含超过21,000张图像,涵盖光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼底照片、手术场景和彩色眼底照片等多种成像模式。数据集的创建过程包括筛选和选择现有数据集,生成一致的标注,并设计标准化的提示用于模型评估。LMOD旨在评估大型视觉-语言模型在眼科图像上的表现,特别是在解剖识别和疾病诊断分析方面,以解决眼科疾病诊断和治疗规划中的挑战。
LMOD (Large Multimodal Ophthalmology Dataset) is a large-scale multimodal ophthalmology dataset developed by institutions including Yale University. This dataset contains over 21,000 images covering multiple imaging modalities such as optical coherence tomography (OCT), scanning laser ophthalmoscopy (SLO), fundus photographs, surgical scenes, and color fundus photographs. The dataset creation process includes screening and selecting existing datasets, generating consistent annotations, and designing standardized prompts for model evaluation. LMOD aims to evaluate the performance of large vision-language models on ophthalmic images, particularly in anatomical recognition and disease diagnosis analysis, to address challenges in ophthalmic disease diagnosis and treatment planning.
提供机构:
耶鲁大学、帝国理工学院、澳大利亚国立大学、乔治亚大学、新加坡国立大学、皇家墨尔本理工大学
创建时间:
2024-10-02
搜集汇总
数据集介绍

构建方式
LMOD数据集的构建基于对现有公开数据集的系统性筛选与整合,涵盖了五种主要的眼科成像模态:光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼照片(EP)、彩色眼底照片(CFP)以及手术场景(SS)。这些数据集经过精心挑选,确保了其公开可访问性和非版权限制,同时覆盖了关键的眼科疾病和成像技术。通过多粒度注释,LMOD不仅提供了详细的解剖结构标注,还包含了疾病诊断信息,支持从宏观图像诊断到微观解剖识别的全面评估。
特点
LMOD数据集的显著特点在于其多模态和高覆盖度。它包含了21,933张图像,跨越多种眼科成像技术,提供了丰富的疾病标签和边界框注释,支持从宏观到微观的全面评估。此外,LMOD还设计了标准化的提示模板,用于模型评估,确保了评估过程的系统性和可重复性。数据集的多样性和高质量注释使其成为评估大型视觉语言模型在眼科图像理解中的理想基准。
使用方法
LMOD数据集主要用于评估和开发大型视觉语言模型在眼科图像分析中的应用。研究者可以通过提供的多粒度注释和标准化提示模板,对模型进行 anatomical recognition(解剖识别)和 diagnostic analysis(诊断分析)的评估。具体使用方法包括:首先,利用数据集中的图像和注释进行模型训练或微调;其次,使用标准化的提示模板生成评估任务,如识别特定解剖结构或诊断特定眼科疾病;最后,通过与真实标签的对比,计算模型的性能指标,如准确率、召回率和F1分数,以全面评估模型的表现。
背景与挑战
背景概述
眼科医学高度依赖图像分析进行诊断和治疗规划。尽管大型视觉语言模型(LVLMs)在理解复杂视觉信息方面显示出潜力,但其在眼科图像上的表现仍未得到充分探索。LMOD数据集由耶鲁大学、帝国理工学院、澳大利亚国立大学等机构的研究人员创建,旨在评估LVLMs在眼科图像上的性能,涵盖解剖理解和诊断分析。该数据集包含21,933张图像,涵盖光学相干断层扫描、扫描激光眼底镜、眼照片、手术场景和彩色眼底照片等多种成像模式。通过基准测试13种最先进的LVLMs,发现这些模型在理解眼科图像方面远未达到完美。
当前挑战
LMOD数据集面临的挑战包括:1) 在复杂的图像中,模型在空间推理方面存在困难,特别是在包含多个边界框的图像中;2) 模型在不同数据集上的表现不一致;3) 在诊断分析中,模型在青光眼检测中的表现接近随机猜测,而在黄斑孔分期中的准确性有限。此外,构建过程中遇到的挑战包括数据的多模态整合、高质量标注的获取以及模型在处理超出领域范围的图像时的鲁棒性问题。
常用场景
经典使用场景
LMOD数据集在眼科领域中被广泛应用于评估大型视觉语言模型(LVLMs)在眼科图像上的表现。其经典使用场景包括眼科图像的解剖结构识别和疾病诊断分析。通过提供多种眼科成像模态的图像,如光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼底照片等,LMOD数据集支持模型在复杂图像中的空间推理能力测试,以及在疾病检测和分类任务中的性能评估。
解决学术问题
LMOD数据集解决了眼科领域中大型视觉语言模型在理解和分析眼科图像方面的学术研究问题。通过提供丰富的标注数据,LMOD帮助研究人员评估和改进模型在眼科图像上的解剖识别和疾病诊断能力。这不仅有助于提升模型的准确性和可靠性,还为开发更高效的眼科诊断工具提供了理论基础和实践指导。
衍生相关工作
LMOD数据集的发布催生了多项相关研究工作,推动了眼科领域中视觉语言模型的进一步发展。例如,基于LMOD的研究已经开发出多种改进的模型架构,以提高眼科图像的解剖识别和疾病诊断的准确性。此外,LMOD还激发了跨学科的研究合作,促进了计算机视觉和医学图像分析技术的融合,为未来的眼科AI应用奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



