five

smdg-full-dataset

收藏
Hugging Face2025-04-08 更新2025-04-09 收录
下载链接:
https://huggingface.co/datasets/bumbledeep/smdg-full-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
标准化多通道青光眼数据集(SMDG-19)是一个包含19个公共数据集的集合和标准化,由全基金图像和相关的图像元数据组成。这个数据集设计为探索性和开放性的,有多种用途。这是最大的公开基金图像青光眼存储库。该数据集的目标是提供一个适合青光眼相关应用的机器学习就绪数据集。

The Standardized Multi-channel Glaucoma Dataset (SMDG-19) is a standardized collection of 19 public datasets, composed of full-field fundus images and their associated image metadata. This dataset is designed for exploratory and open use, supporting a wide range of applications. It is the largest publicly available glaucoma-focused fundus image repository. The core objective of this dataset is to provide a machine-learning-ready dataset tailored for glaucoma-related applications.
创建时间:
2025-03-27
搜集汇总
数据集介绍
main_image_url
构建方式
在眼科医学影像研究领域,标准化多通道青光眼数据集(SMDG-19)通过整合19个公开数据集构建而成。该数据集采用创新的动态全局前景阈值算法对眼底图像进行标准化处理,包括背景裁剪、图像居中、信息填充及统一调整为512x512像素分辨率等关键步骤。所有元数据经过系统整理,以CSV文件形式规范存储,每行对应一张眼底图像,每列代表特定属性特征,为机器学习应用提供了高质量的标准数据基础。
特点
作为目前最大的公开青光眼眼底影像资源库,该数据集包含7,499例非青光眼样本、4,817例确诊病例及133例疑似病例,覆盖多种临床亚型。其突出特点在于采用统一的预处理流程消除原始数据间的异质性,确保图像质量的一致性。数据集特别保留了完整的眼底结构信息,但移除了原始版本中的视盘分割、视杯分割等附加标注,专注于提供标准化的基础影像数据。这种设计既满足了机器学习模型训练的需求,又为后续研究保留了充分的扩展空间。
使用方法
该数据集主要适用于青光眼自动分类任务的模型开发与验证。使用者可通过Kaggle或Github平台获取资源,按照70:15:15的比例随机划分训练集、验证集和测试集。每张标准化眼底图像配有详细的临床标签(0表示正常,1表示确诊,-1表示疑似),研究人员可直接应用于深度学习模型的端到端训练。值得注意的是,由于数据集整合了多源异构数据,使用者需充分考虑不同子集间的分布差异,建议采用交叉验证等策略确保模型泛化性能。相关研究可参考作者团队在ICIVC、IEMCON等会议上发表的算法基准测试成果。
背景与挑战
背景概述
Standardized Multi-Channel Dataset for Glaucoma (SMDG-19) 是由Riley Kiefer等人于2023年整合19个公开青光眼数据集构建而成,旨在为机器学习应用提供标准化的眼底图像资源。作为当前最大的公开青光眼眼底图像库,该数据集通过动态全局前景阈值算法对图像进行标准化处理,包括裁剪背景、居中眼底图像、填充缺失信息并统一调整为512x512像素,显著提升了数据的一致性与可用性。其核心研究目标在于解决青光眼早期诊断中高质量标注数据的稀缺性问题,相关成果已发表于《国际信息系统与数据挖掘会议》等学术会议,为眼科医学影像分析领域提供了重要的基准数据支持。
当前挑战
该数据集面临的主要挑战体现在两个维度:在领域问题层面,青光眼作为不可逆致盲眼病,其眼底图像存在病变特征细微、类间差异不显著的特点,导致传统分类模型难以捕捉早期病理特征;同时多源数据集间的成像设备差异(如色偏、分辨率不均)进一步增加了模型泛化难度。在构建过程中,研究者需克服原始数据异构性带来的技术挑战,包括统一19个子集的图像格式与标注标准,平衡不同医疗机构数据采集偏倚,以及处理部分子集样本量不足导致的类别不均衡问题(非青光眼样本7499例 vs. 青光眼样本4817例)。此外,原始数据集中的视盘分割、血管标注等关键辅助信息在本版本中的缺失,也可能限制模型的细粒度分析能力。
常用场景
经典使用场景
在眼科医学研究中,青光眼的早期诊断一直是临床实践中的关键挑战。SMDG-19数据集通过整合19个公开数据集,提供了标准化的眼底图像资源,为机器学习模型在青光眼分类任务中的训练与验证奠定了坚实基础。该数据集不仅覆盖了广泛的青光眼病例,还包含了非青光眼及疑似病例,为模型的泛化能力评估提供了丰富素材。
衍生相关工作
基于该数据集衍生的经典研究包括Kiefer等人提出的动态全局前景阈值算法(ICIVC 2023),实现了眼底图像的自动化标准化处理。另有学者结合迁移学习技术开发了轻量化分类模型(IEMCON 2022),在保持高准确率的同时满足移动端部署需求。这些工作共同推动了青光眼智能诊断的技术演进。
数据集最近研究
最新研究方向
在青光眼早期诊断领域,标准化多通道青光眼数据集(SMDG-19)作为目前最大的公开眼底图像库,正推动着深度学习技术在医学影像分析中的创新应用。最新研究聚焦于多模态数据融合技术,通过结合眼底图像与光学相干断层扫描(OCT)数据,提升模型对青光眼细微病理特征的捕捉能力。2023年国际图像视觉计算会议报道的动态全局前景阈值算法,为数据集标准化处理提供了新范式,这种预处理方法显著改善了后续机器学习模型的输入质量。与此同时,研究者们正在探索基于Transformer架构的跨数据集迁移学习策略,以解决不同来源数据分布差异带来的泛化挑战。该数据集的应用不仅加速了青光眼自动筛查系统的临床转化进程,也为开发可解释性AI模型提供了重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作