LMOD
收藏arXiv2024-10-02 更新2024-10-09 收录
下载链接:
https://arxiv.org/pdf/2410.01620v1
下载链接
链接失效反馈官方服务:
资源简介:
LMOD是一个大型多模态眼科数据集,由耶鲁大学等机构创建,旨在评估大型视觉-语言模型在眼科图像上的表现。数据集包含21,993张图像,涵盖光学相干断层扫描、扫描激光眼底镜、眼照片、手术场景和彩色眼底照片等多种眼科成像方式。数据集创建过程中,对图像进行了多粒度标注,包括边界框、区域标注和图像级标注。LMOD的应用领域主要集中在眼科疾病的诊断和分类,旨在通过AI技术提高眼科临床工作流程的效率和准确性。
LMOD is a large-scale multimodal ophthalmology dataset developed by institutions including Yale University, aiming to evaluate the performance of large vision-language models on ophthalmic images. The dataset contains 21,993 images covering multiple ophthalmic imaging modalities, including Optical Coherence Tomography (OCT), Scanning Laser Ophthalmoscope (SLO), ophthalmic photographs, surgical scenes, and color fundus photographs. During its development, the dataset underwent multi-granularity annotations covering bounding boxes, regional annotations, and image-level annotations. Its primary application focuses on the diagnosis and classification of ophthalmic diseases, with the goal of enhancing the efficiency and accuracy of ophthalmic clinical workflows through AI technologies.
提供机构:
耶鲁大学、帝国理工学院、澳大利亚国立大学、乔治亚大学、新加坡国立大学、皇家墨尔本理工大学
创建时间:
2024-10-02
搜集汇总
数据集介绍

构建方式
LMOD数据集的构建基于对现有公开数据集的系统性筛选和整合。研究团队精心挑选了九个涵盖不同眼科成像类型的数据集,包括手术场景、光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼照片和彩色眼底照片。这些数据集不仅覆盖了多种眼科疾病,还考虑了人口多样性,以确保模型在不同群体中的有效性。通过多粒度注释,LMOD数据集提供了详细的边界框、区域注释和图像级注释,支持模型在解剖理解、诊断分析和生物标志物预测等多方面的评估。
特点
LMOD数据集的显著特点在于其多模态和高覆盖性。该数据集包含了21,993张图像,涵盖了五种主要的眼科成像类型,并提供了丰富的多粒度注释。这些注释不仅包括解剖结构的详细标注,还涉及疾病诊断和患者人口统计信息的提取。此外,LMOD数据集的设计旨在评估大型视觉-语言模型在眼科图像理解中的性能,填补了当前领域内缺乏专门用于此类模型评估的基准数据集的空白。
使用方法
LMOD数据集主要用于评估和开发大型视觉-语言模型在眼科图像分析中的应用。研究者可以通过该数据集对模型进行多方面的测试,包括解剖结构的识别、疾病诊断的准确性以及患者人口统计信息的提取。数据集提供了详细的注释和评估指标,如精确度、召回率、F1分数和阳性预测值,帮助研究者全面了解模型的性能。此外,LMOD数据集还支持模型的零样本和少样本学习能力评估,为未来眼科AI应用的发展提供了坚实的基础。
背景与挑战
背景概述
眼科医学高度依赖于详细的图像分析来进行诊断和治疗规划。尽管大型视觉语言模型(LVLMs)在理解复杂视觉信息方面显示出潜力,但其在眼科图像上的表现仍未得到充分探索。为此,我们引入了LMOD,一个用于评估LVLMs在眼科图像上的数据集和基准。LMOD包含21,993张图像,涵盖光学相干断层扫描、扫描激光眼底镜、眼照片、手术场景和彩色眼底照片等多种类型。该数据集由耶鲁大学、帝国理工学院、澳大利亚国立大学、佐治亚大学、新加坡国立大学和皇家墨尔本理工大学等机构的主要研究人员共同创建,旨在解决LVLMs在眼科图像理解中的核心研究问题,并对相关领域产生深远影响。
当前挑战
LMOD数据集面临的挑战主要集中在两个方面:一是解决领域问题,如图像分类中的挑战;二是构建过程中遇到的挑战。在解决领域问题方面,LVLMs在诊断分析和人口统计信息提取方面表现不佳,显示出在空间推理、诊断分析、处理域外查询以及处理眼科图像生物标志物方面的弱点。在构建过程中,数据集的多样性和复杂性增加了标注和处理的难度,同时需要确保数据集的广泛适用性和代表性。此外,如何有效地评估和提升LVLMs在眼科特定应用中的性能也是一个重要挑战。
常用场景
经典使用场景
LMOD数据集在眼科领域中被广泛用于评估大型视觉-语言模型(LVLMs)的性能。其经典应用场景包括对眼科图像的解剖结构识别、疾病诊断分析以及患者人口统计信息提取。通过提供多种眼科成像模式(如光学相干断层扫描、扫描激光眼底镜、眼底照片等)的21,993张图像,LMOD为研究人员提供了一个全面的基准,用于测试和改进LVLMs在眼科图像理解方面的能力。
解决学术问题
LMOD数据集解决了眼科领域中大型视觉-语言模型在处理复杂视觉信息时表现不足的问题。通过提供多模态的眼科图像数据,LMOD帮助研究人员识别和解决模型在空间推理、诊断分析和处理超出领域查询时的弱点。这不仅提升了模型的性能,还为眼科疾病的自动化诊断和治疗规划提供了新的可能性,具有重要的学术研究意义和临床应用价值。
衍生相关工作
基于LMOD数据集,研究人员开发了多种相关的经典工作。例如,一些研究团队利用LMOD进行模型微调,以提高其在特定眼科疾病诊断中的准确性。此外,LMOD还激发了关于多模态数据融合和处理的新研究,推动了视觉-语言模型在医疗领域的进一步应用。这些衍生工作不仅扩展了LMOD的应用范围,也为眼科人工智能的发展提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



