five

LMOD|眼科数据集|多模态数据数据集

收藏
arXiv2024-10-03 更新2024-10-09 收录
眼科
多模态数据
下载链接:
https://arxiv.org/pdf/2410.01620v2
下载链接
链接失效反馈
资源简介:
LMOD(Large Multimodal Ophthalmology Dataset)是一个大规模的多模态眼科数据集,由耶鲁大学等机构创建。该数据集包含超过21,000张图像,涵盖光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼底照片、手术场景和彩色眼底照片等多种成像模式。数据集的创建过程包括筛选和选择现有数据集,生成一致的标注,并设计标准化的提示用于模型评估。LMOD旨在评估大型视觉-语言模型在眼科图像上的表现,特别是在解剖识别和疾病诊断分析方面,以解决眼科疾病诊断和治疗规划中的挑战。
提供机构:
耶鲁大学、帝国理工学院、澳大利亚国立大学、乔治亚大学、新加坡国立大学、皇家墨尔本理工大学
创建时间:
2024-10-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
LMOD数据集的构建基于对现有公开数据集的系统性筛选与整合,涵盖了五种主要的眼科成像模态:光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼照片(EP)、彩色眼底照片(CFP)以及手术场景(SS)。这些数据集经过精心挑选,确保了其公开可访问性和非版权限制,同时覆盖了关键的眼科疾病和成像技术。通过多粒度注释,LMOD不仅提供了详细的解剖结构标注,还包含了疾病诊断信息,支持从宏观图像诊断到微观解剖识别的全面评估。
特点
LMOD数据集的显著特点在于其多模态和高覆盖度。它包含了21,933张图像,跨越多种眼科成像技术,提供了丰富的疾病标签和边界框注释,支持从宏观到微观的全面评估。此外,LMOD还设计了标准化的提示模板,用于模型评估,确保了评估过程的系统性和可重复性。数据集的多样性和高质量注释使其成为评估大型视觉语言模型在眼科图像理解中的理想基准。
使用方法
LMOD数据集主要用于评估和开发大型视觉语言模型在眼科图像分析中的应用。研究者可以通过提供的多粒度注释和标准化提示模板,对模型进行 anatomical recognition(解剖识别)和 diagnostic analysis(诊断分析)的评估。具体使用方法包括:首先,利用数据集中的图像和注释进行模型训练或微调;其次,使用标准化的提示模板生成评估任务,如识别特定解剖结构或诊断特定眼科疾病;最后,通过与真实标签的对比,计算模型的性能指标,如准确率、召回率和F1分数,以全面评估模型的表现。
背景与挑战
背景概述
眼科医学高度依赖图像分析进行诊断和治疗规划。尽管大型视觉语言模型(LVLMs)在理解复杂视觉信息方面显示出潜力,但其在眼科图像上的表现仍未得到充分探索。LMOD数据集由耶鲁大学、帝国理工学院、澳大利亚国立大学等机构的研究人员创建,旨在评估LVLMs在眼科图像上的性能,涵盖解剖理解和诊断分析。该数据集包含21,933张图像,涵盖光学相干断层扫描、扫描激光眼底镜、眼照片、手术场景和彩色眼底照片等多种成像模式。通过基准测试13种最先进的LVLMs,发现这些模型在理解眼科图像方面远未达到完美。
当前挑战
LMOD数据集面临的挑战包括:1) 在复杂的图像中,模型在空间推理方面存在困难,特别是在包含多个边界框的图像中;2) 模型在不同数据集上的表现不一致;3) 在诊断分析中,模型在青光眼检测中的表现接近随机猜测,而在黄斑孔分期中的准确性有限。此外,构建过程中遇到的挑战包括数据的多模态整合、高质量标注的获取以及模型在处理超出领域范围的图像时的鲁棒性问题。
常用场景
经典使用场景
LMOD数据集在眼科领域中被广泛应用于评估大型视觉语言模型(LVLMs)在眼科图像上的表现。其经典使用场景包括眼科图像的解剖结构识别和疾病诊断分析。通过提供多种眼科成像模态的图像,如光学相干断层扫描(OCT)、扫描激光眼底镜(SLO)、眼底照片等,LMOD数据集支持模型在复杂图像中的空间推理能力测试,以及在疾病检测和分类任务中的性能评估。
解决学术问题
LMOD数据集解决了眼科领域中大型视觉语言模型在理解和分析眼科图像方面的学术研究问题。通过提供丰富的标注数据,LMOD帮助研究人员评估和改进模型在眼科图像上的解剖识别和疾病诊断能力。这不仅有助于提升模型的准确性和可靠性,还为开发更高效的眼科诊断工具提供了理论基础和实践指导。
衍生相关工作
LMOD数据集的发布催生了多项相关研究工作,推动了眼科领域中视觉语言模型的进一步发展。例如,基于LMOD的研究已经开发出多种改进的模型架构,以提高眼科图像的解剖识别和疾病诊断的准确性。此外,LMOD还激发了跨学科的研究合作,促进了计算机视觉和医学图像分析技术的融合,为未来的眼科AI应用奠定了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

2000-2018年中国典型生态系统植物生长节律数据

该数据集涵盖了森林、草地、荒漠、沼泽、农田生态系统2000年-2020年CERN长期定位监测的植物物候数据和主要作生育期数据,包括木本植物、草本植物、水稻、小麦、玉米物候数据表,木本植物数据表有18个台站、291个物种的芽开放期、展叶期、开花始期、开花盛期、果实或种子成熟期、叶秋季变色期和落叶期共计3814条记录;草本植物数据表有22个台站、312个物种的萌动期、开花期、果实或种子成熟期、种子散布期和黄枯期共计3032条数据;水稻数据表有9个台站的出苗期、拔节期、蜡熟期等10个生育期共551条记录;小麦数据表有9个台站不同生育期382条记录;玉米数据表有18个台站不同生育期532条数据。

地球大数据科学工程 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录