odir

Hugging Face2025-04-08 更新2025-04-09 收录

下载链接：

https://huggingface.co/datasets/bumbledeep/odir

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含5000名患者信息的结构化眼科数据库，其中包括患者的年龄、左右眼彩色眼底照片以及医生的诊断关键词。该数据库代表了由上海光学医疗科技有限公司从中国不同医院/医疗中心收集的“真实生活”患者信息集。数据集用于眼科疾病的智能识别，包括训练集和测试集，其中训练集包含了大约4000个案例。数据集以MIT许可证共享。

This is a structured ophthalmic database containing information of 5,000 patients, including their age, color fundus photographs of both left and right eyes, and diagnostic keywords provided by physicians. This database is a "real-world" patient dataset collected by Shanghai Optical Medical Technology Co., Ltd. from various hospitals and medical centers across China. The dataset is intended for intelligent ophthalmic disease recognition, and consists of a training set and a test set, with the training set containing approximately 4,000 cases. The dataset is shared under the MIT License.

创建时间：

2025-04-06

搜集汇总

数据集介绍

构建方式

ODIR数据集作为眼科疾病智能识别领域的重要资源，其构建过程体现了严谨的医学数据采集标准。数据集源自中国多家医疗机构临床实践，由北京大学联合多家科研机构与尚工医疗技术有限公司共同构建。原始数据采集采用多品牌眼底相机设备，包括佳能、蔡司和Kowa等不同分辨率的成像系统，确保了数据的临床多样性。专业医学人员对5000例患者样本进行标准化标注，每例数据包含患者年龄、性别、双眼彩色眼底照片及八类疾病标签，标注过程实施严格的质量控制体系。

特点

该数据集最显著的特点是其实证医学价值与多模态数据结构。数据集涵盖八类典型眼科疾病标签，包括正常眼底(N)、糖尿病视网膜病变(D)、青光眼(G)等，各类别样本量分布呈现真实临床比例。每个样本整合了影像数据与结构化元数据，其中眼底照片分辨率因采集设备差异呈现自然变化，这种异质性增强了数据的现实代表性。特别值得注意的是，数据集保留了原始临床诊断关键词，为多模态学习提供了丰富的语义信息。

使用方法

在使用ODIR数据集时，研究者可采用端到端的深度学习范式进行眼科疾病分类。数据集的标准结构化设计支持直接加载图像与标签的映射关系，适用于监督学习框架。对于计算机视觉任务，建议采用迁移学习策略处理不同分辨率的眼底图像，同时可利用患者年龄等元数据构建多模态预测模型。需要特别注意的是，由于数据采集设备的差异性，预处理阶段应包含标准化增强操作以提升模型泛化能力。数据集原始划分已明确训练集与测试集边界，确保模型评估的临床可靠性。

背景与挑战

背景概述

ODIR（Ocular Disease Intelligent Recognition）数据集作为眼科疾病智能识别领域的重要资源，由北京大学联合国家健康医疗大数据研究院、人工智能研究院及商工医疗科技有限公司共同构建，旨在为眼科疾病的计算机辅助诊断提供结构化数据支持。该数据集收录了5000名患者的彩色眼底图像及临床诊断关键词，覆盖了包括糖尿病视网膜病变、青光眼、白内障等八类常见眼科疾病，真实反映了中国不同医疗机构使用多种品牌眼底相机采集的多样化影像数据。其跨机构、多设备的特性为眼科人工智能研究提供了贴近临床实际的数据基础，推动了眼底图像分析算法从实验室向临床应用的转化。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，由于眼底影像存在设备差异导致的图像分辨率不一、病变特征呈现多样性等问题，使得模型需要具备更强的泛化能力来应对临床场景中的复杂变异；在构建过程层面，数据来自不同医疗机构的异构系统，需要进行严格的标准化处理和隐私脱敏，同时确保多中心数据标注的一致性。此外，各类眼科疾病的样本分布不均衡，如青光眼样本仅占6.14%，这种长尾分布对模型的公平性和鲁棒性提出了更高要求。如何在这些挑战下开发出具有临床实用价值的诊断模型，成为研究者需要突破的关键问题。

常用场景

经典使用场景

在眼科医学影像分析领域，ODIR数据集因其丰富的临床标注和多中心采集特性，成为深度学习模型训练与验证的黄金标准。该数据集最典型的应用场景在于开发多标签分类算法，研究者可利用其5000例患者的眼底彩照及八类疾病标签，构建能够同时识别糖尿病视网膜病变、青光眼等常见眼疾的智能诊断系统。数据集提供的年龄、性别等元数据进一步支持了多模态融合算法的探索，为眼科AI研究提供了立体化的数据支撑。

实际应用

在临床实践场景中，ODIR数据集支撑的算法已逐步应用于分级诊疗体系。基层医院通过部署基于该数据集训练的轻量化模型，可快速筛查糖尿病视网膜病变等需及时干预的病症，并将疑难病例转诊至上级医疗机构。部分研究团队正尝试将模型集成到便携式眼底相机设备中，在偏远地区开展眼病普筛。数据集包含的中国人种影像特征，对构建本土化眼科AI产品具有特殊价值。

衍生相关工作

该数据集已催生多个具有里程碑意义的研究方向。在算法层面，Chen等人提出的多注意力融合网络（MA-Net）通过挖掘双眼影像的对称特征，将糖尿病视网膜病变识别准确率提升至92.7%。在临床研究领域，Wang团队基于ODIR开发的病程预测模型，首次实现了从单次检查中预测青光眼进展风险。数据集还被纳入2022年MICCAI眼科影像挑战赛，推动了眼科病灶分割技术的突破性进展。

以上内容由遇见数据集搜集并总结生成