five

ISIC Archive Skin Lesion Dataset|皮肤病变分类数据集|模型公平性数据集

收藏
arXiv2024-07-24 更新2024-07-27 收录
皮肤病变分类
模型公平性
下载链接:
https://github.com/raumannsr/data-fairness-impact
下载链接
链接失效反馈
资源简介:
ISIC Archive皮肤病变数据集由方提斯应用科学大学和埃因霍温理工大学共同创建,包含71,035张皮肤病变图像,用于研究模型在性别偏见和公平性上的表现。数据集通过线性规划方法构建,考虑了性别、年龄和病变类型等因素,旨在解决医学图像诊断中的性别偏见问题。该数据集的应用领域主要集中在皮肤病变分类和模型公平性的研究。
提供机构:
方提斯应用科学大学, 埃因霍温, 荷兰; 埃因霍温理工大学, 埃因霍温, 荷兰; 哥本哈根信息技术大学, 丹麦
创建时间:
2024-07-24
原始信息汇总

数据集概述

研究目的

本研究旨在系统地检查不同卷积神经网络(CNN)架构在皮肤病变图像输入下的诊断准确性,特别关注训练数据中性别等人口统计参数的变化。

数据集构建

  • 使用了一个平衡的测试集。
  • 构建了五个大小相等的训练集,其中女性与男性的比例分别为:仅女性、75:25、50:50、25:75、仅男性。
  • 所有六个数据集的良性与恶性比例均为50:50。

数据来源

数据集包含从ISIC档案收集的皮肤病变元数据,参考文献包括:

  1. Codella, N., et al. (2019)
  2. Codella, N.C.F., et al. (2018)
  3. Combalia, M., et al. (2019)
  4. Gutman, D., et al. (2016)
  5. Tschandl, P., et al. (2018)
  6. Veronica, R., et al. (2021)

代码结构

  • 0_data: 包含收集的皮肤病变元数据。
  • 1_code: 包含基准模型和多任务模型,实验定义和MATLAB代码。
    • single task: 0_baseline.py (Keras和TensorFlow)
    • reinforcing: 1_mtl_strengthen.py (Keras和TensorFlow)
    • adversarial: br-net.py (PyTorch)
    • MATLAB folder: 包含用于创建数据集分布的线性规划模型。
    • Experiments folder: 包含运行各种模型和数据集组合的实验。
      • e1: 50F:50M (run-e1: base, run-e1m:reinforcing, run-e1br:adversarial)
      • e5: 仅女性
      • e7: 仅男性
      • e8: 25F:75M
      • e9: 75F:25M
AI搜集汇总
数据集介绍
main_image_url
构建方式
ISIC Archive Skin Lesion Dataset的构建采用了线性规划(LP)方法,通过对ISIC档案中的皮肤病变图像进行筛选和优化。首先,移除所有未定义年龄属性的病变图像,并去除重复图像。接着,通过随机选择每个患者的单一图像来消除多重图像。随后,利用线性规划技术,根据性别、年龄(高于或低于中位数)和类别标签进行最优采样,确保数据集的多样性和平衡性。最后,将数据集划分为训练集、验证集和测试集,以确保模型评估的公正性。
特点
该数据集的主要特点在于其多样性和平衡性。通过线性规划方法,数据集在性别、年龄和病变类别之间实现了均衡分布,从而减少了潜在的偏见。此外,数据集包含了81,155张皮肤病变图像,其中71,035张图像具有详细的年龄和性别元数据,为研究性别和年龄对模型预测的影响提供了丰富的资源。
使用方法
ISIC Archive Skin Lesion Dataset适用于多种深度学习模型的训练和评估,特别是在皮肤病变分类任务中。研究者可以使用该数据集来训练ResNet-based CNN模型,并通过不同的学习策略(如单任务学习、多任务学习和对抗学习)来评估模型的公平性和性能。数据集的代码和模型已在GitHub上公开,方便研究者进行复现和进一步研究。
背景与挑战
背景概述
ISIC Archive Skin Lesion Dataset是由Ralf Raumanns等人于2024年创建的,旨在研究皮肤病变分类中的模型公平性问题。该数据集的核心研究问题是如何在不同性别比例的训练数据中评估模型的性能,并探讨多任务学习和对抗学习策略对性别偏见的影响。主要研究人员来自荷兰的Fontys University of Applied Science、Eindhoven University of Technology以及丹麦的IT University of Copenhagen。该数据集的创建对医学影像诊断领域具有重要意义,特别是在深度学习模型在皮肤病变分类中的应用,有助于揭示和减少模型中的性别偏见。
当前挑战
ISIC Archive Skin Lesion Dataset在构建过程中面临多个挑战。首先,数据集的构建需要考虑性别、年龄和病变类型之间的复杂关系,这增加了数据处理的复杂性。其次,如何在不同性别比例的数据集中保持模型的公平性是一个关键问题,尤其是在单一任务模型中观察到的性别偏见。此外,多任务学习和对抗学习策略的应用虽然有助于减少偏见,但在实际应用中仍需进一步优化。最后,数据集的构建和模型评估需要考虑其他潜在的混淆因素,如皮肤颜色和图像中的伪影,这些因素可能进一步影响模型的公平性和性能。
常用场景
经典使用场景
ISIC Archive Skin Lesion Dataset 在皮肤病理学领域中,常用于皮肤病变分类任务。通过该数据集,研究人员可以训练和验证基于深度学习的皮肤病变分类模型,特别是使用 ResNet 架构的卷积神经网络(CNN)。这些模型能够自动识别和分类皮肤病变,从而辅助临床医生进行诊断。
实际应用
在实际应用中,ISIC Archive Skin Lesion Dataset 被广泛用于开发和优化皮肤病变诊断系统。这些系统可以部署在移动设备或医院信息系统中,帮助医生快速识别和分类皮肤病变,特别是在资源有限的地区,提高诊断效率和准确性。
衍生相关工作
基于 ISIC Archive Skin Lesion Dataset,研究人员开发了多种改进模型和方法。例如,Yang 等人提出了对抗性去偏框架,用于减少医院位置和患者种族的偏见。Wu 等人则提出了 FairPrune 方法,通过修剪参数来平衡特权和非特权群体的权重。这些工作进一步推动了医学影像分析中公平性和去偏的研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

MMAUD

MMAUD数据集是由南洋理工大学电气与电子工程学院创建,专注于小型无人机的检测、分类和轨迹估计。该数据集结合了多种传感器输入,包括立体视觉、多种激光雷达、雷达和音频阵列,以高保真度模拟真实世界场景。MMAUD提供了由Leica生成的精确地面实况数据,增强了数据集的可信度,并支持算法的精确和高效开发。数据集的应用领域包括无人机威胁检测、分类和轨迹估计,旨在解决现代微型无人机威胁带来的挑战。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录