five

MultiEYE|眼病诊断数据集|多模态数据数据集

收藏
arXiv2024-12-13 更新2024-12-14 收录
眼病诊断
多模态数据
下载链接:
https://github.com/xmed-lab/MultiEYE
下载链接
链接失效反馈
资源简介:
MultiEYE是由香港科技大学等机构创建的多模态多类眼病诊断数据集,包含58,036张眼底照片和45,923张OCT B扫描图像。该数据集通过不配对的图像进行训练,旨在利用OCT图像增强眼底图像的疾病识别能力。数据集的创建过程结合了大规模图像采集和多模态数据处理技术,旨在解决临床中多模态数据稀缺的问题,提升眼病诊断的准确性和可解释性。MultiEYE数据集主要应用于眼科疾病的诊断和研究,特别是在视网膜疾病的分类和识别方面具有重要意义。
提供机构:
香港科技大学
创建时间:
2024-12-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiEYE数据集通过整合13个公开的视网膜图像数据集和4个OCT数据集,构建了一个大规模的多模态多类别眼科疾病诊断数据集。该数据集包含58,036张视网膜图像和45,923张OCT图像,涵盖了9种不同的眼科疾病类别。值得注意的是,视网膜图像和OCT图像并非严格配对,即它们不一定来自同一患者,但共享相同的疾病标签空间。这种构建方式旨在模拟临床实践中常见的多模态数据使用场景,允许在训练阶段使用未配对的多模态数据,而在测试阶段仅依赖于广泛使用的视网膜图像。
特点
MultiEYE数据集的主要特点在于其多模态性和多类别性。首先,数据集包含了视网膜图像和OCT图像两种模态,这两种模态在临床诊断中具有互补性,视网膜图像提供了宏观的视网膜结构信息,而OCT图像则提供了微观的视网膜层结构信息。其次,数据集涵盖了9种常见的眼科疾病,包括干性年龄相关性黄斑变性、糖尿病视网膜病变等,能够支持多种疾病的分类任务。此外,数据集的构建方式允许使用未配对的多模态数据进行训练,这在临床实践中更具实用性,因为并非所有患者都同时拥有两种模态的图像。
使用方法
MultiEYE数据集可用于多种眼科疾病分类任务的研究。研究者可以通过该数据集训练模型,利用视网膜图像和OCT图像的互补性,提升疾病诊断的准确性。具体使用方法包括:首先,利用视网膜图像和OCT图像分别提取特征,并通过知识蒸馏技术将OCT模态中的疾病相关知识传递给视网膜模型;其次,在测试阶段,模型可以仅依赖视网膜图像进行预测,从而在临床实践中更具实用性。此外,数据集还可用于评估模型的跨模态知识传递能力,以及在不同设备和数据分布下的鲁棒性。
背景与挑战
背景概述
MultiEYE数据集由香港科技大学、云南联合视觉创新科技有限公司等机构的研究人员于2020年创建,旨在解决眼底图像与光学相干断层扫描(OCT)图像的多模态学习问题。该数据集首次提出了‘OCT增强的眼底图像疾病识别’这一新场景,允许在训练阶段使用未配对的多模态数据,并在测试阶段仅依赖广泛使用的眼底照片。MultiEYE数据集包含58,036张眼底照片和45,923张OCT图像,涵盖多种眼科疾病,为多模态疾病诊断提供了新的基准。该数据集的提出不仅推动了多模态学习的临床应用,还为跨模态知识迁移提供了可解释的框架,显著提升了基于眼底图像的诊断性能。
当前挑战
MultiEYE数据集面临的挑战主要集中在两个方面:首先,现有的多模态学习方法通常需要配对的多模态数据进行训练和测试,这在临床实践中难以实现,因为眼底照片和OCT图像的获取并不总是同步。其次,构建未配对的多模态数据集本身也面临诸多技术难题,如数据标注的一致性、不同设备间的图像质量差异等。此外,如何有效地从OCT图像中提取疾病相关知识并将其迁移到眼底图像模型中,也是一个亟待解决的问题。这些挑战不仅限制了多模态学习的广泛应用,还对模型的可解释性和临床实用性提出了更高的要求。
常用场景
经典使用场景
MultiEYE数据集的经典使用场景主要集中在眼科疾病的诊断与分类任务中。该数据集通过整合视网膜图像(Fundus Images)和光学相干断层扫描图像(OCT Images),提供了一个多模态、多类别的眼病诊断基准。研究者可以利用该数据集进行跨模态知识蒸馏,特别是在仅依赖视网膜图像进行测试的情况下,通过OCT图像的知识增强视网膜模型的诊断性能。这种设置特别适用于临床环境中,OCT设备不常见或仅依赖视网膜图像进行诊断的场景。
解决学术问题
MultiEYE数据集解决了现有多模态学习方法中对配对数据的高度依赖问题,尤其是在临床实践中,配对的多模态数据难以获取。通过引入“OCT增强的视网膜图像疾病识别”这一新设置,该数据集允许在训练阶段使用未配对的多模态数据,并在测试阶段仅依赖视网膜图像。这不仅扩展了临床应用的范围,还为跨模态知识转移提供了新的研究方向,显著提升了基于视网膜图像的诊断性能,并为模型的可解释性提供了新的思路。
衍生相关工作
MultiEYE数据集的提出催生了一系列相关的经典工作,特别是在跨模态知识蒸馏和多模态学习领域。例如,基于该数据集的研究者提出了OCT-CoDA(OCT-Assisted Conceptual Distillation Approach)方法,通过引入细粒度的疾病概念,将OCT图像中的疾病相关知识蒸馏到视网膜模型中,显著提升了模型的诊断性能和可解释性。此外,该数据集还推动了基于大规模语言模型(LLM)和视觉语言模型(VLM)的跨模态知识转移研究,进一步扩展了多模态学习的应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录