Harvard-FairSeg

Name: Harvard-FairSeg
Creator: 哈佛大学眼科人工智能实验室
Published: 2024-05-01 09:32:34
License: 暂无描述

arXiv2024-05-01 更新2024-06-21 收录

下载链接：

https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k

下载链接

链接失效反馈

官方服务：

资源简介：

Harvard-FairSeg数据集是由哈佛大学眼科人工智能实验室创建的大规模医学图像分割数据集，专注于公平性学习。该数据集包含10,000个样本，涵盖了年龄、性别、种族、民族、首选语言和婚姻状况等六种敏感属性，旨在通过Segment Anything Model (SAM) 和公平误差边界缩放方法，提高不同身份群体的分割性能公平性。数据集的应用领域主要集中在提高医学图像分割的公平性，特别是在诊断青光眼等眼科疾病时，确保不同人群的准确性和公平性。

The Harvard-FairSeg dataset is a large-scale medical image segmentation dataset developed by the Harvard Ophthalmic AI Lab, with a core focus on fairness-aware learning. It consists of 10,000 samples that incorporate six sensitive attributes: age, gender, race, ethnicity, preferred language, and marital status. The dataset is designed to improve the fairness of segmentation performance across different demographic groups through the Segment Anything Model (SAM) and fair error-bound scaling approaches. Its primary application scenarios center on enhancing the fairness of medical image segmentation, especially during the diagnosis of ophthalmic disorders such as glaucoma, to guarantee consistent accuracy and fairness across diverse patient populations.

提供机构：

哈佛大学眼科人工智能实验室

创建时间：

2023-11-04

搜集汇总

数据集介绍

构建方式

在医学影像公平性研究领域，构建高质量的分割数据集面临标注成本高昂的挑战。哈佛大学眼科人工智能实验室通过创新方法构建了Harvard-FairSeg数据集，该过程始于对2010年至2021年间大型学术眼科医院的扫描激光检眼镜（SLO）眼底影像进行回顾性收集。研究团队采用三维光学相干断层扫描（OCT）设备自动获取视盘和视杯区域的像素级标注，随后通过NiftyReg配准工具将OCT衍生的眼底影像与SLO影像进行空间对齐，从而将三维标注迁移至二维平面。这套自动化流程产生了大量高质量标注，再经由五位医学专家组成的小组进行严格人工审核，最终形成包含一万个样本的精细标注数据集，有效规避了传统手动标注的繁重工作量。

使用方法

该数据集为医学图像分割的公平性学习提供了标准化评估平台。研究者可利用数据集训练和评估各种分割模型在公平性约束下的性能，例如将SAM（Segment Anything Model）或TransUNet等先进架构与公平性算法结合。使用过程中需重点关注公平性评估指标，数据集论文提出了权益缩放分割性能指标（如ES-Dice），该指标将传统分割度量与群体间性能差异相结合，为模型公平性提供直观量化。具体实施时，可采用论文提出的公平误差边界缩放方法，通过重新加权不同身份群体的损失函数来显式处理训练误差较高的困难案例，从而改善模型在不同敏感属性群体间的性能均衡性。所有数据与代码均已公开，便于复现和比较研究。

背景与挑战

背景概述

哈佛大学眼科人工智能实验室于2024年发布了Harvard-FairSeg数据集，这是首个专注于医学图像分割公平性研究的大规模数据集。该数据集旨在解决人工智能模型在医学影像分析中存在的公平性问题，特别是在青光眼诊断的视盘和视杯分割任务中。数据集包含10,000个样本，涵盖了年龄、性别、种族、民族、首选语言和婚姻状况等六种敏感属性，为研究不同人口统计学群体间的算法偏差提供了重要资源。其创建不仅推动了医学影像分割领域的公平性学习，也为开发去偏差算法奠定了实证基础。

当前挑战

在医学图像分割领域，公平性研究面临多重挑战。首先，现有公平性数据集多集中于分类任务，缺乏针对分割任务的专用数据，而分割任务能提供更精细的空间信息，对临床诊断至关重要。其次，构建大规模高质量医学分割数据集极为困难，因为像素级标注需要耗费大量人力和时间，且医学数据常涉及隐私和伦理问题。此外，现有公平性算法主要针对分类任务设计，其在分割任务中的有效性尚不明确，且缺乏统一的公平性评估指标。这些挑战使得在医学分割中实现跨人口群体的公平性能成为一项复杂而紧迫的研究课题。

常用场景

经典使用场景

在医学影像分析领域，哈佛-FairSeg数据集为研究分割模型的公平性提供了关键基准。该数据集包含一万例扫描激光眼底镜（SLO）图像，并标注了视盘和视杯的像素级分割掩码，同时涵盖了年龄、性别、种族、民族、首选语言和婚姻状况六种敏感属性。其经典应用场景在于评估和提升深度学习模型在不同人口统计学群体中的分割性能公平性，特别是在青光眼早期诊断中，确保模型不会因敏感属性差异而产生系统性偏差。

解决学术问题

哈佛-FairSeg数据集解决了医学人工智能中一个长期被忽视的核心问题：分割任务的公平性缺失。以往的研究多集中于分类任务的公平性，而分割模型在临床中同样至关重要，因其能提供器官异常的详细空间信息。该数据集通过提供大规模、多属性的标注数据，使得研究者能够系统探究分割模型在不同敏感属性群体间的性能差异，并开发去偏差算法。其提出的公平误差边界缩放方法和公平性评估指标，为量化与提升分割公平性提供了方法论基础，推动了医学影像分析向更公平、更可靠的方向发展。

实际应用

该数据集的实际应用价值主要体现在临床眼科筛查的公平化实践中。通过利用哈佛-FairSeg训练和验证的分割模型，可以更公平地应用于不同种族、性别等群体的青光眼筛查。例如，模型能够更准确地为黑人群体分割视盘和视杯，该群体患青光眼的风险是其他群体的两倍，但传统模型对其分割精度往往最低。这有助于在初级保健等资源有限的环境中，实现基于眼底影像的、不受人口统计学因素影响的早期青光眼风险评估，促进医疗资源的公平分配和疾病管理的精准化。

数据集最近研究