five

ISIC Archive Skin Lesion Dataset|皮肤病变分类数据集|模型公平性数据集

收藏
arXiv2024-07-24 更新2024-07-27 收录
皮肤病变分类
模型公平性
下载链接:
https://github.com/raumannsr/data-fairness-impact
下载链接
链接失效反馈
资源简介:
ISIC Archive皮肤病变数据集由方提斯应用科学大学和埃因霍温理工大学共同创建,包含71,035张皮肤病变图像,用于研究模型在性别偏见和公平性上的表现。数据集通过线性规划方法构建,考虑了性别、年龄和病变类型等因素,旨在解决医学图像诊断中的性别偏见问题。该数据集的应用领域主要集中在皮肤病变分类和模型公平性的研究。
提供机构:
方提斯应用科学大学, 埃因霍温, 荷兰; 埃因霍温理工大学, 埃因霍温, 荷兰; 哥本哈根信息技术大学, 丹麦
创建时间:
2024-07-24
原始信息汇总

数据集概述

研究目的

本研究旨在系统地检查不同卷积神经网络(CNN)架构在皮肤病变图像输入下的诊断准确性,特别关注训练数据中性别等人口统计参数的变化。

数据集构建

  • 使用了一个平衡的测试集。
  • 构建了五个大小相等的训练集,其中女性与男性的比例分别为:仅女性、75:25、50:50、25:75、仅男性。
  • 所有六个数据集的良性与恶性比例均为50:50。

数据来源

数据集包含从ISIC档案收集的皮肤病变元数据,参考文献包括:

  1. Codella, N., et al. (2019)
  2. Codella, N.C.F., et al. (2018)
  3. Combalia, M., et al. (2019)
  4. Gutman, D., et al. (2016)
  5. Tschandl, P., et al. (2018)
  6. Veronica, R., et al. (2021)

代码结构

  • 0_data: 包含收集的皮肤病变元数据。
  • 1_code: 包含基准模型和多任务模型,实验定义和MATLAB代码。
    • single task: 0_baseline.py (Keras和TensorFlow)
    • reinforcing: 1_mtl_strengthen.py (Keras和TensorFlow)
    • adversarial: br-net.py (PyTorch)
    • MATLAB folder: 包含用于创建数据集分布的线性规划模型。
    • Experiments folder: 包含运行各种模型和数据集组合的实验。
      • e1: 50F:50M (run-e1: base, run-e1m:reinforcing, run-e1br:adversarial)
      • e5: 仅女性
      • e7: 仅男性
      • e8: 25F:75M
      • e9: 75F:25M
AI搜集汇总
数据集介绍
main_image_url
构建方式
ISIC Archive Skin Lesion Dataset的构建采用了线性规划(LP)方法,通过对ISIC档案中的皮肤病变图像进行筛选和优化。首先,移除所有未定义年龄属性的病变图像,并去除重复图像。接着,通过随机选择每个患者的单一图像来消除多重图像。随后,利用线性规划技术,根据性别、年龄(高于或低于中位数)和类别标签进行最优采样,确保数据集的多样性和平衡性。最后,将数据集划分为训练集、验证集和测试集,以确保模型评估的公正性。
特点
该数据集的主要特点在于其多样性和平衡性。通过线性规划方法,数据集在性别、年龄和病变类别之间实现了均衡分布,从而减少了潜在的偏见。此外,数据集包含了81,155张皮肤病变图像,其中71,035张图像具有详细的年龄和性别元数据,为研究性别和年龄对模型预测的影响提供了丰富的资源。
使用方法
ISIC Archive Skin Lesion Dataset适用于多种深度学习模型的训练和评估,特别是在皮肤病变分类任务中。研究者可以使用该数据集来训练ResNet-based CNN模型,并通过不同的学习策略(如单任务学习、多任务学习和对抗学习)来评估模型的公平性和性能。数据集的代码和模型已在GitHub上公开,方便研究者进行复现和进一步研究。
背景与挑战
背景概述
ISIC Archive Skin Lesion Dataset是由Ralf Raumanns等人于2024年创建的,旨在研究皮肤病变分类中的模型公平性问题。该数据集的核心研究问题是如何在不同性别比例的训练数据中评估模型的性能,并探讨多任务学习和对抗学习策略对性别偏见的影响。主要研究人员来自荷兰的Fontys University of Applied Science、Eindhoven University of Technology以及丹麦的IT University of Copenhagen。该数据集的创建对医学影像诊断领域具有重要意义,特别是在深度学习模型在皮肤病变分类中的应用,有助于揭示和减少模型中的性别偏见。
当前挑战
ISIC Archive Skin Lesion Dataset在构建过程中面临多个挑战。首先,数据集的构建需要考虑性别、年龄和病变类型之间的复杂关系,这增加了数据处理的复杂性。其次,如何在不同性别比例的数据集中保持模型的公平性是一个关键问题,尤其是在单一任务模型中观察到的性别偏见。此外,多任务学习和对抗学习策略的应用虽然有助于减少偏见,但在实际应用中仍需进一步优化。最后,数据集的构建和模型评估需要考虑其他潜在的混淆因素,如皮肤颜色和图像中的伪影,这些因素可能进一步影响模型的公平性和性能。
常用场景
经典使用场景
ISIC Archive Skin Lesion Dataset 在皮肤病理学领域中,常用于皮肤病变分类任务。通过该数据集,研究人员可以训练和验证基于深度学习的皮肤病变分类模型,特别是使用 ResNet 架构的卷积神经网络(CNN)。这些模型能够自动识别和分类皮肤病变,从而辅助临床医生进行诊断。
实际应用
在实际应用中,ISIC Archive Skin Lesion Dataset 被广泛用于开发和优化皮肤病变诊断系统。这些系统可以部署在移动设备或医院信息系统中,帮助医生快速识别和分类皮肤病变,特别是在资源有限的地区,提高诊断效率和准确性。
衍生相关工作
基于 ISIC Archive Skin Lesion Dataset,研究人员开发了多种改进模型和方法。例如,Yang 等人提出了对抗性去偏框架,用于减少医院位置和患者种族的偏见。Wu 等人则提出了 FairPrune 方法,通过修剪参数来平衡特权和非特权群体的权重。这些工作进一步推动了医学影像分析中公平性和去偏的研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Crop Yield Prediction Dataset

Impact of Environmental Factors on Crop Yields Across Countries

kaggle 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

era5

ERA5数据集是基于Hersbach等人的研究,包含26个气候变量,数据采样间隔为每6小时一次,覆盖了整个月份的每天,适用于气候研究。

huggingface 收录