Harvard Glaucoma Fairness

Name: Harvard Glaucoma Fairness
Creator: 哈佛医学院
Published: 2024-03-11 10:54:57
License: 暂无描述

arXiv2024-03-11 更新2024-06-21 收录

下载链接：

https://ophai.hms.harvard.edu/datasets/harvard-gf3300/

下载链接

链接失效反馈

官方服务：

资源简介：

Harvard Glaucoma Fairness（哈佛青光眼公平性）数据集是由哈佛医学院创建，专注于青光眼检测的公平性学习。该数据集包含3300个受试者的2D和3D视网膜神经图像，旨在解决不同种族间健康问题的差异。数据集平衡了白人、黑人和亚洲人的样本数量，以避免数据不平衡问题。此外，数据集还包括3D成像数据，为3D公平性学习提供了机会。该数据集的应用领域主要集中在通过深度学习进行青光眼的自动筛查，旨在解决模型预测准确性在不同种族群体中的差异问题。

Harvard Glaucoma Fairness Dataset is developed by Harvard Medical School, with a core focus on fairness-aware learning for glaucoma detection. It contains 2D and 3D retinal nerve images from 3,300 subjects, and is designed to address health disparities across different racial groups. The dataset balances the sample sizes among White, Black, and Asian populations to mitigate data imbalance issues. Additionally, it includes 3D imaging data, which creates opportunities for 3D fairness-aware learning. Its primary application scenarios lie in automatic glaucoma screening via deep learning, aiming to resolve the disparities in model prediction accuracy across various racial groups.

提供机构：

哈佛医学院

创建时间：

2023-06-16

搜集汇总

数据集介绍

构建方式

在眼科医学影像研究领域，构建具有公平性学习价值的数据集对于推动算法公平性至关重要。哈佛青光眼公平性数据集（Harvard Glaucoma Fairness）的构建过程体现了严谨的科学设计理念。该数据集源自一家大型学术眼科医院在2010年至2021年间收集的临床数据，经过机构审查委员会批准并遵循赫尔辛基宣言原则。数据收集涵盖了光学相干断层扫描（OCT）的二维视网膜神经纤维层厚度图和三维B扫描图像，同时整合了患者人口统计学信息与基于视野测试的青光眼诊断标签。为确保数据质量，研究团队排除了信号强度低于6的OCT扫描，并采用制造商软件标准计算结构测量值。特别值得注意的是，数据集在种族构成上实现了精心平衡，亚裔、黑人和白人群体各包含1000名受试者，总计3300个样本，有效避免了数据不平衡对公平性学习可能造成的混淆影响。

特点

哈佛青光眼公平性数据集在医学影像公平性学习领域展现出若干鲜明特征。作为首个专为医学影像公平性学习设计的公共数据集，它同时提供二维和三维成像数据，为探索不同维度的公平性算法提供了独特机会。数据集在种族分布上实现了精确平衡，三大主要种族群体样本量完全相等，这为剖析模型偏差与数据不平衡的独立影响创造了理想条件。此外，数据集包含丰富的人口统计学属性，如年龄、性别、种族、民族、语言能力和婚姻状况，支持多维度公平性研究。临床数据方面，青光眼患病率在不同种族间存在显著差异，黑人群体患病率明显高于其他种族，这为研究健康差异与算法公平性的交互关系提供了真实场景。数据集的这些特征共同构成了一个多层次、多属性的公平性学习研究平台。

使用方法

该数据集的使用方法遵循系统化的研究范式，旨在支持公平性学习算法的开发与评估。研究实践通常将3300个样本划分为训练集（2100样本）、验证集（300样本）和测试集（900样本），确保模型评估的稳健性。在算法层面，数据集支持多种公平性学习方法的比较，包括预处理、处理中和后处理策略。具体而言，研究者可利用二维RNFL厚度图或三维OCT B扫描图像作为输入，结合EfficientNet-B1或3D ResNet-18等基准模型架构，集成公平身份归一化等先进技术。评估体系涵盖传统性能指标（如AUC、准确率）和公平性指标（如DPD、DEOdds），同时数据集作者提出的公平性缩放性能度量（ES-Acc、ES-AUC）为平衡效率与公平性提供了创新评估框架。数据集通过标准化协议支持跨模型公平性比较，所有数据与代码均已公开，遵循CC BY-NC-ND 4.0许可，专供非商业研究使用。

背景与挑战

背景概述

在医学人工智能领域，公平性研究因缺乏专用影像数据集而进展缓慢。哈佛大学眼科人工智能实验室于2023年推出了Harvard Glaucoma Fairness数据集，旨在填补这一空白。该数据集聚焦于青光眼筛查，作为全球不可逆性失明的主要病因，青光眼在黑人群体的患病率显著高于其他种族。数据集包含3300名受试者的二维视网膜神经纤维层厚度图和三维光学相干断层扫描影像，并平衡了白种人、黑种人和亚洲人的样本比例。其核心研究在于探索机器学习模型在跨种族、性别等身份群体中的诊断公平性，为医疗AI的伦理部署提供关键数据支持。

当前挑战

该数据集致力于解决医疗影像领域算法公平性的核心挑战，即在确保高准确率的同时，消除模型对不同种族、性别等身份群体的诊断偏差。具体而言，构建过程中面临多重挑战：首先，医疗影像数据常存在身份群体不平衡问题，可能混淆公平性评估；其次，需同时整合二维与三维影像数据以支持多模态公平学习；此外，青光眼在黑人群体的病理表现更为复杂，要求模型具备跨群体的鲁棒性。这些挑战共同指向了在安全关键的医疗应用中，平衡模型效能与公平性的深刻难题。

常用场景

经典使用场景

在医学影像与人工智能公平性研究领域，Harvard Glaucoma Fairness数据集为探索深度学习模型在青光眼筛查中的群体公平性提供了基准平台。该数据集通过提供种族平衡的视网膜神经纤维层厚度图和三维OCT B扫描图像，使研究者能够系统评估模型在不同人口统计学群体中的性能差异。其经典应用场景在于训练和验证公平性学习算法，确保青光眼自动检测系统在亚洲、黑人和白人群体中均能保持高精度与低偏差，从而推动医疗人工智能向更公平、更可靠的方向发展。

实际应用

在实际医疗场景中，该数据集可直接用于开发公平的青光眼筛查系统，这类系统可部署于社区诊所或药房，为医疗资源匮乏地区提供可及的早期诊断服务。其平衡的种族构成确保了筛查工具在不同人群中的普适性，尤其有助于降低黑人群体因青光眼患病率较高而面临的失明风险。通过集成公平性优化算法，此类系统能在不牺牲整体准确性的前提下，显著提升对少数族裔的诊断灵敏度，从而在公共卫生层面推动健康公平的实现。

衍生相关工作

基于该数据集衍生的经典工作包括公平身份归一化方法，该方法通过可学习的群体特定统计量对特征进行归一化，以平衡不同身份组间的特征重要性。此外，研究者提出了公平性缩放性能指标，将模型准确率与群体公平性纳入统一评估框架。这些方法不仅提升了青光眼检测的公平性，更为医学影像领域的公平性学习设立了新范式，后续研究可将其扩展至糖尿病视网膜病变、年龄相关性黄斑变性等其他眼科疾病乃至更广泛的医疗影像诊断任务中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集