five

用于评估多模态大型语言模型的眼科图像数据集

收藏
arXiv2025-03-10 更新2025-03-12 收录
下载链接:
https://medbench.opencompass.org.cn/track
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了一个新颖的多模态基准,用于通过眼底照片和光学相干断层扫描(OCT)图像综合评估多模态大型语言模型(MLLMs)的诊断性能。该数据集经过严格的质控和专家标注,包含439张眼底图像和75张OCT图像,旨在解决眼科诊断中的实际问题,为多模态模型的评估提供了新的视角。

This study constructed a novel multimodal benchmark for comprehensively evaluating the diagnostic performance of multimodal large language models (MLLMs) using fundus photographs and optical coherence tomography (OCT) images. This dataset has undergone rigorous quality control and expert annotation, containing 439 fundus images and 75 OCT images. It aims to address practical issues in ophthalmic diagnosis and provide a new perspective for the evaluation of multimodal models.
提供机构:
上海交通大学医学院附属第九人民医院, 上海人工智能实验室, 上海眼眶病眼肿瘤重点实验室
创建时间:
2025-03-10
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式包括从公开文献中识别并收集眼底照片和OCT图像,并经过严格的专家审查和注释过程。数据集由来自不同疾病的439张眼底照片和75张OCT图像组成,涵盖了多种眼科疾病的诊断场景。
特点
该数据集的特点在于其临床相关性、数据质量的高标准以及多维度注释的全面性。数据集涵盖了多种眼科疾病的诊断场景,并通过严格的专家审查和注释过程确保了数据的准确性和可靠性。
使用方法
该数据集的使用方法是通过调用API来评估多模态大型语言模型(MLLM)在诊断眼科疾病方面的性能。用户可以上传图像,并通过API与模型进行交互,以评估模型在诊断眼科疾病方面的准确性和泛化能力。
背景与挑战
背景概述
随着人工智能技术在医疗领域的广泛应用,大型语言模型(LLMs)和跨模态大型语言模型(MLLMs)在眼科图像分析、疾病分类和治疗预测等方面展现出巨大潜力。为了更准确地评估MLLMs在眼科临床实践中的诊断性能,Xiaoyi Liang等人于2025年3月10日提出了一项新的眼科基准,该基准利用眼底照片和光学相干断层扫描(OCT)图像,全面评估了MLLMs的诊断性能。该数据集经过严格的质量控制和专家标注,包括439张眼底照片和75张OCT图像,并通过标准化的API框架评估了七个主流MLLMs,发现不同模型在不同疾病的诊断准确性上存在显著差异。该基准强调了开发临床相关基准以提供更准确评估MLLMs能力的重要性。
当前挑战
该数据集面临的挑战主要包括:1) 所解决的领域问题是MLLMs在OCT图像分析中的局限性,现有的基准往往无法捕捉到现实世界临床实践的复杂性;2) 构建过程中遇到的挑战包括小样本量、缺乏多样化的OCT数据集以及专家验证不足。此外,该基准还面临着图像质量差异、缺乏完整临床数据链以及疾病分期准确性不足等问题。未来工作包括结合多种类型的图像以提高模型准确性,以及建立临床多模态信息链以支持更好的诊断决策。
常用场景
经典使用场景
在眼科领域,该数据集的经典使用场景在于评估多模态大型语言模型(MLLMs)对眼底照片和光学相干断层扫描(OCT)图像的诊断性能。通过使用该数据集,研究人员可以测试MLLMs在各种眼科疾病诊断中的准确性和泛化能力,包括糖尿病视网膜病变、年龄相关性黄斑变性等。这种评估有助于改进MLLMs的性能,并为眼科诊断和治疗提供更精确的工具。
衍生相关工作
该数据集衍生了多项相关工作,包括开发新的MLLMs评估方法、探索MLLMs在眼科图像分析中的最佳实践以及改进MLLMs的架构和训练过程。这些工作有助于推动MLLMs在眼科领域的应用,并为未来开发更精确、更可靠的眼科诊断工具奠定了基础。
数据集最近研究
最新研究方向
本研究介绍了一个新的眼科评估基准,该基准结合了眼底照片和OCT图像,旨在全面评估多模态大型语言模型(MLLMs)的诊断性能。该基准的引入旨在解决现有MLLM基准在分析OCT图像方面的局限性,这些局限性包括样本量小、缺乏多样化的OCT数据集以及专家验证不足。通过使用经过严格质量控制和专家注释的数据集,研究人员评估了七种主流MLLMs,并观察到不同疾病之间诊断准确性的显著差异。一些模型在诊断糖尿病视网膜病变和年龄相关性黄斑变性等疾病方面表现出色,而在脉络膜新生血管和近视等疾病方面则表现不佳。这些发现强调了开发具有临床相关性的基准的重要性,以便更准确地评估MLLMs的能力。通过改进这些模型并扩大其范围,我们可以增强其在眼科诊断和治疗中的潜力。
相关研究论文
  • 1
    A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images上海交通大学医学院附属第九人民医院, 上海人工智能实验室, 上海眼眶病眼肿瘤重点实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作