five

Harvard-FairSeg

收藏
arXiv2024-05-01 更新2024-06-21 收录
下载链接:
https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k
下载链接
链接失效反馈
官方服务:
资源简介:
Harvard-FairSeg数据集是由哈佛大学眼科人工智能实验室创建的大规模医学图像分割数据集,专注于公平性学习。该数据集包含10,000个样本,涵盖了年龄、性别、种族、民族、首选语言和婚姻状况等六种敏感属性,旨在通过Segment Anything Model (SAM) 和公平误差边界缩放方法,提高不同身份群体的分割性能公平性。数据集的应用领域主要集中在提高医学图像分割的公平性,特别是在诊断青光眼等眼科疾病时,确保不同人群的准确性和公平性。

The Harvard-FairSeg dataset is a large-scale medical image segmentation dataset developed by the Harvard Ophthalmic AI Lab, with a core focus on fairness-aware learning. It consists of 10,000 samples that incorporate six sensitive attributes: age, gender, race, ethnicity, preferred language, and marital status. The dataset is designed to improve the fairness of segmentation performance across different demographic groups through the Segment Anything Model (SAM) and fair error-bound scaling approaches. Its primary application scenarios center on enhancing the fairness of medical image segmentation, especially during the diagnosis of ophthalmic disorders such as glaucoma, to guarantee consistent accuracy and fairness across diverse patient populations.
提供机构:
哈佛大学眼科人工智能实验室
创建时间:
2023-11-04
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像公平性研究领域,构建高质量的分割数据集面临标注成本高昂的挑战。哈佛大学眼科人工智能实验室通过创新方法构建了Harvard-FairSeg数据集,该过程始于对2010年至2021年间大型学术眼科医院的扫描激光检眼镜(SLO)眼底影像进行回顾性收集。研究团队采用三维光学相干断层扫描(OCT)设备自动获取视盘和视杯区域的像素级标注,随后通过NiftyReg配准工具将OCT衍生的眼底影像与SLO影像进行空间对齐,从而将三维标注迁移至二维平面。这套自动化流程产生了大量高质量标注,再经由五位医学专家组成的小组进行严格人工审核,最终形成包含一万个样本的精细标注数据集,有效规避了传统手动标注的繁重工作量。
使用方法
该数据集为医学图像分割的公平性学习提供了标准化评估平台。研究者可利用数据集训练和评估各种分割模型在公平性约束下的性能,例如将SAM(Segment Anything Model)或TransUNet等先进架构与公平性算法结合。使用过程中需重点关注公平性评估指标,数据集论文提出了权益缩放分割性能指标(如ES-Dice),该指标将传统分割度量与群体间性能差异相结合,为模型公平性提供直观量化。具体实施时,可采用论文提出的公平误差边界缩放方法,通过重新加权不同身份群体的损失函数来显式处理训练误差较高的困难案例,从而改善模型在不同敏感属性群体间的性能均衡性。所有数据与代码均已公开,便于复现和比较研究。
背景与挑战
背景概述
哈佛大学眼科人工智能实验室于2024年发布了Harvard-FairSeg数据集,这是首个专注于医学图像分割公平性研究的大规模数据集。该数据集旨在解决人工智能模型在医学影像分析中存在的公平性问题,特别是在青光眼诊断的视盘和视杯分割任务中。数据集包含10,000个样本,涵盖了年龄、性别、种族、民族、首选语言和婚姻状况等六种敏感属性,为研究不同人口统计学群体间的算法偏差提供了重要资源。其创建不仅推动了医学影像分割领域的公平性学习,也为开发去偏差算法奠定了实证基础。
当前挑战
在医学图像分割领域,公平性研究面临多重挑战。首先,现有公平性数据集多集中于分类任务,缺乏针对分割任务的专用数据,而分割任务能提供更精细的空间信息,对临床诊断至关重要。其次,构建大规模高质量医学分割数据集极为困难,因为像素级标注需要耗费大量人力和时间,且医学数据常涉及隐私和伦理问题。此外,现有公平性算法主要针对分类任务设计,其在分割任务中的有效性尚不明确,且缺乏统一的公平性评估指标。这些挑战使得在医学分割中实现跨人口群体的公平性能成为一项复杂而紧迫的研究课题。
常用场景
经典使用场景
在医学影像分析领域,哈佛-FairSeg数据集为研究分割模型的公平性提供了关键基准。该数据集包含一万例扫描激光眼底镜(SLO)图像,并标注了视盘和视杯的像素级分割掩码,同时涵盖了年龄、性别、种族、民族、首选语言和婚姻状况六种敏感属性。其经典应用场景在于评估和提升深度学习模型在不同人口统计学群体中的分割性能公平性,特别是在青光眼早期诊断中,确保模型不会因敏感属性差异而产生系统性偏差。
解决学术问题
哈佛-FairSeg数据集解决了医学人工智能中一个长期被忽视的核心问题:分割任务的公平性缺失。以往的研究多集中于分类任务的公平性,而分割模型在临床中同样至关重要,因其能提供器官异常的详细空间信息。该数据集通过提供大规模、多属性的标注数据,使得研究者能够系统探究分割模型在不同敏感属性群体间的性能差异,并开发去偏差算法。其提出的公平误差边界缩放方法和公平性评估指标,为量化与提升分割公平性提供了方法论基础,推动了医学影像分析向更公平、更可靠的方向发展。
实际应用
该数据集的实际应用价值主要体现在临床眼科筛查的公平化实践中。通过利用哈佛-FairSeg训练和验证的分割模型,可以更公平地应用于不同种族、性别等群体的青光眼筛查。例如,模型能够更准确地为黑人群体分割视盘和视杯,该群体患青光眼的风险是其他群体的两倍,但传统模型对其分割精度往往最低。这有助于在初级保健等资源有限的环境中,实现基于眼底影像的、不受人口统计学因素影响的早期青光眼风险评估,促进医疗资源的公平分配和疾病管理的精准化。
数据集最近研究
最新研究方向
在医学影像分析领域,公平性学习正成为人工智能模型部署的关键议题,尤其关注模型在不同人口统计学群体中的性能均衡。哈佛大学团队于ICLR 2024推出的Harvard-FairSeg数据集,作为首个面向医学分割任务的公平性基准,填补了现有研究空白。该数据集聚焦于青光眼筛查中的视盘与视杯分割,包含一万个样本及六类敏感属性,推动了基于Segment Anything Model的公平误差边界缩放方法的发展。前沿研究集中于开发兼顾分割精度与群体公平性的算法,如通过上界误差重加权损失函数以处理各身份组中的困难案例,并引入公平性缩放分割指标如ES-Dice,以量化模型在不同种族、性别等属性上的性能差异。这一进展不仅促进了医学影像分割模型的公平性评估与优化,也为临床实践中减少健康差异提供了技术支撑。
相关研究论文
  • 1
    FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling哈佛大学眼科人工智能实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作