five

Skin Condition Image Network (SCIN) dataset

收藏
arXiv2024-02-29 更新2024-07-23 收录
下载链接:
https://github.com/google-research-datasets/scin
下载链接
链接失效反馈
官方服务:
资源简介:
Skin Condition Image Network (SCIN)数据集是由谷歌研究与斯坦福大学医学院合作创建的,旨在通过互联网用户的自愿贡献,收集代表性的皮肤病学图像。该数据集包含10,408张图像,涵盖了皮肤病学的多种条件,如炎症、感染和过敏反应等。创建过程中,通过Google搜索广告吸引用户上传图像,并收集了相关的年龄、性别和种族/民族信息。SCIN数据集的应用领域广泛,包括医学教育、研究和人工智能工具的开发,旨在解决现有数据集中存在的代表性和多样性不足的问题。

The Skin Condition Image Network (SCIN) Dataset was collaboratively developed by Google Research and Stanford University School of Medicine, with the objective of collecting representative dermatological images through voluntary contributions from internet users. This dataset comprises 10,408 images covering a diverse range of dermatological conditions, including inflammation, infections, allergic reactions, and others. During its creation, Google Search advertisements were employed to attract users to upload images, while collecting relevant demographic information such as age, gender, and race/ethnicity. The SCIN dataset has broad applications in medical education, research, and the development of AI tools, and it was designed to address the issues of insufficient representativeness and diversity in existing datasets.
提供机构:
谷歌研究
创建时间:
2024-02-29
原始信息汇总

SCIN 数据集概述

数据集简介

SCIN(Skin Condition Image Network)数据集旨在补充来自卫生系统来源的公开可用皮肤病学数据集,通过互联网用户的代表性图像。该数据集从美国Google搜索用户通过自愿同意的图像捐赠应用程序收集。SCIN数据集旨在用于健康教育和研究,并增加公开可用皮肤病学图像的多样性。

数据集内容

  • 图像数量:超过5,000名志愿者的贡献(超过10,000张图像)。
  • 数据类型:包括图像、自我报告的 demographic、历史和症状信息,以及自我报告的Fitzpatrick皮肤类型(sFST)。
  • 标签信息:每份贡献都包含皮肤病学专家对皮肤状况的标签、估计的Fitzpatrick皮肤类型(eFST)和非专业人士估计的Monk皮肤色调(eMST)标签。

数据存储

数据存储在Google Cloud Storage的dx-scin-public-data桶中。

已知问题

  • 数据集中有15张重复图像(总共出现42次)。
  • 有48个案例标记为可分级,但没有皮肤状况标签。
  • 1个图像文件缺失。

许可证

SCIN数据集根据SCIN数据使用许可证发布。

DOI

数据集的DOI为10.5281/zenodo.10819503

搜集汇总
数据集介绍
main_image_url
构建方式
Skin Condition Image Network (SCIN) 数据集通过使用 Google 搜索广告进行众包构建。研究团队从 100 种皮肤、头发和指甲状况中生成并选择了 3000 个与皮肤相关的搜索关键词,通过这些关键词向美国成年用户展示广告,邀请他们贡献皮肤病状况的图像、人口统计和症状信息。在获得贡献者的知情同意后,数据集经过去识别化和质量检查,最终包含 10,408 张图像,来自 5,033 名互联网用户的贡献。
特点
SCIN 数据集的特点在于其广泛的代表性和多样性,涵盖了常见的皮肤病状况,包括过敏、感染和炎症性皮肤病。数据集还包括了皮肤病专家的诊断标签以及估计的 Fitzpatrick 皮肤类型 (eFST) 和 Monk 皮肤色调 (eMST) 标签。此外,数据集的贡献者中女性和年轻用户的比例较高,反映了互联网用户的实际分布。
使用方法
SCIN 数据集可用于皮肤病学的教育和研究,以及人工智能工具的开发和评估。研究人员可以通过访问数据集的 GitHub 仓库获取数据,并利用这些数据训练和验证皮肤病诊断模型。数据集的多样性和代表性使其成为评估模型在不同人群中表现的重要资源,有助于提高人工智能工具在实际应用中的准确性和公平性。
背景与挑战
背景概述
皮肤状况图像网络(Skin Condition Image Network, SCIN)数据集由Google Research与斯坦福大学医学院合作创建,旨在解决现有临床来源健康数据集无法全面反映真实世界疾病多样性的问题。该数据集于2023年3月启动,通过Google搜索广告邀请公众贡献皮肤病学图像及相关信息,最终收集了来自美国互联网用户的5,033份贡献,包含10,408张图像。SCIN数据集不仅包含皮肤病专家的诊断标签,还估计了Fitzpatrick皮肤类型(eFST)和Monk皮肤色调(eMST)标签,为皮肤病学研究、医学教育和人工智能工具开发提供了宝贵的资源。
当前挑战
SCIN数据集在构建过程中面临多项挑战。首先,如何通过搜索广告有效吸引和筛选出符合条件的贡献者,确保数据集的代表性和多样性,是一个复杂的问题。其次,数据的去识别化和隐私保护措施必须严格,以防止潜在的再识别风险。此外,皮肤病专家对图像的诊断标签与图像质量之间的相关性较弱,这可能影响数据集在训练AI模型时的有效性。最后,数据集中女性和年轻贡献者的高比例,以及非白人种族或族裔贡献者的比例,虽然反映了互联网用户的真实情况,但也可能引入一定的偏见,需要在后续研究中加以校正。
常用场景
经典使用场景
Skin Condition Image Network (SCIN) 数据集的经典应用场景主要集中在皮肤病学的研究和教育领域。该数据集通过众包方式收集了大量真实的皮肤病图像,涵盖了多种皮肤病症状和不同肤色类型。这些图像被用于训练和验证皮肤病诊断的机器学习模型,帮助提高模型的准确性和泛化能力。此外,SCIN 数据集也被用于开发皮肤病学的在线教育资源,提供多样化的病例图像,以增强医学生和初级医生的临床诊断能力。
衍生相关工作
SCIN 数据集的发布催生了一系列相关研究和工作。例如,基于 SCIN 数据集的机器学习模型被进一步优化,用于自动分类和诊断多种皮肤病。此外,研究人员还利用 SCIN 数据集进行跨肤色和种族的皮肤病表现研究,探讨不同人群中皮肤病的发病率和表现差异。SCIN 数据集的成功应用也为其他健康领域的众包数据集创建提供了借鉴和参考。
数据集最近研究
最新研究方向
在皮肤病学领域,Skin Condition Image Network (SCIN) 数据集的最新研究方向主要集中在利用大规模的众包图像数据来提升皮肤病诊断的准确性和公平性。通过使用Google搜索广告进行众包,SCIN数据集不仅收集了大量多样化的皮肤病图像,还包含了详细的皮肤病症状和患者人口统计信息。这一方法有效地弥补了传统临床数据集中存在的种族、性别和地理分布不均的问题。研究者们正在探索如何利用这些数据来训练和验证人工智能模型,以提高其在不同人群中的诊断性能,并推动皮肤病学教育和研究的进步。此外,SCIN数据集的开放性和多样性也为研究公平性和偏见检测提供了宝贵的资源,有助于开发更加公正和普及的皮肤病诊断工具。
相关研究论文
  • 1
    Crowdsourcing Dermatology Images with Google Search Ads: Creating a Real-World Skin Condition Dataset谷歌研究 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作