SCIN Dataset
收藏github2024-03-16 更新2024-05-31 收录
下载链接:
https://github.com/google-research-datasets/scin
下载链接
链接失效反馈官方服务:
资源简介:
The SCIN dataset contains 10,000+ images of dermatology conditions, crowdsourced with informed consent from US internet users. Contributions include self-reported demographic and symptom information and dermatologist labels. The dataset also contains estimated Fitzpatrick skin type and Monk Skin Tone.
SCIN数据集收录10000余张皮肤病病症图像,所有图像均通过众包方式采集,且采集过程已获得对应美国互联网用户的知情同意。征集得到的标注信息包括受试者自行上报的人口统计学特征、症状资料,以及皮肤科医生出具的诊断标签。此外,该数据集还包含经估算得到的菲茨帕特里克肤色分型(Fitzpatrick skin type)与蒙克肤色量表(Monk Skin Tone)。
创建时间:
2024-02-21
原始信息汇总
SCIN Dataset 概述
数据集目的
SCIN (Skin Condition Image Network) 数据集旨在补充来自健康系统来源的公开皮肤病学数据集,通过收集美国Google搜索用户的自愿同意图像捐赠,用于健康教育和研究,增加公众可用的皮肤病学图像的多样性。
数据集内容
- 图像数量:超过5,000名志愿者贡献的10,000+张图像。
- 附加信息:包括自我报告的:
- 人口统计信息
- 病史
- 症状信息
- 自我报告的Fitzpatrick皮肤类型(sFST)。
- 专业标注:每份贡献均提供:
- 皮肤科医生标注的皮肤状况
- 估计的Fitzpatrick皮肤类型(eFST)
- 非专业人士估计的Monk皮肤色调(eMST)。
数据存储位置
数据存储于Google Cloud Storage的dx-scin-public-data bucket。
数据集注意事项
- 包含的图像可能涉及敏感和/或图形性质的医疗条件。
- 已知问题:
- 15张图像为重复(共出现42次)。
- 48例被标记为可评分但无皮肤状况标签,因存在多种状况被标记为不可评分。
- 1张图像文件缺失。
数据集许可证
SCIN Dataset 根据 SCIN Data Use License 发布。
数据集DOI
相关研究论文
了解更多关于数据集和方法,请参阅论文 Crowdsourcing Dermatology Images with Google Search Ads: Creating a Real-World Skin Condition Dataset。
搜集汇总
数据集介绍

构建方式
SCIN数据集通过创新的众包方式构建,旨在补充现有皮肤病学数据集的多样性。该数据集通过谷歌搜索广告邀请美国互联网用户自愿捐赠皮肤病图像,并经过数字知情同意程序确保数据合法性。捐赠内容包括皮肤病图像、自我报告的人口统计信息、病史、症状描述以及Fitzpatrick皮肤类型。所有数据均经过图像安全筛选和隐私保护措施,确保数据的可靠性和安全性。
特点
SCIN数据集包含超过5000份志愿者贡献的10000多张图像,涵盖了常见的皮肤病类型。每份贡献不仅包含图像,还提供了自我报告的人口统计信息、病史、症状描述以及Fitzpatrick皮肤类型。此外,数据集还提供了皮肤病专家的诊断标签、估计的Fitzpatrick皮肤类型和普通人估计的Monk皮肤色调标签。这些丰富的标注信息为皮肤病学研究提供了多维度的数据支持,显著提升了数据集的多样性和代表性。
使用方法
SCIN数据集存储于Google Cloud Storage的dx-scin-public-data存储桶中,用户可通过访问该存储桶获取数据。数据集的使用方法可通过scin_demo.ipynb笔记本快速了解,该笔记本详细展示了如何访问和操作数据集。此外,数据集文档(dataset_schema.md)提供了数据模式的概述,帮助用户更好地理解数据结构。数据集适用于健康教育和研究,尤其适合用于皮肤病学图像分析和人工智能工具开发。
背景与挑战
背景概述
SCIN(Skin Condition Image Network)数据集是一个开放获取的皮肤病图像数据集,旨在通过互联网用户的代表性图像补充来自卫生系统的公开皮肤病数据集。该数据集由斯坦福医学院的医生与Google研究团队合作创建,于2024年正式发布。数据集通过Google搜索广告在美国用户中征集自愿捐赠的图像,涵盖了5000多份志愿者贡献的10000多张图像,包括常见皮肤病的图像、自我报告的人口统计信息、病史、症状描述以及Fitzpatrick皮肤类型。此外,每份贡献还附有皮肤科医生的诊断标签、估计的Fitzpatrick皮肤类型(eFST)和普通用户估计的Monk皮肤色调(eMST)标签。SCIN数据集的发布填补了皮肤病图像在多样性方面的空白,为健康教育和研究提供了重要资源,尤其在皮肤病人工智能工具开发领域具有显著影响力。
当前挑战
SCIN数据集在构建和应用过程中面临多重挑战。首先,皮肤病图像的多样性和代表性是核心问题,尽管数据集通过互联网征集扩大了样本来源,但仍需确保图像的质量和诊断的准确性。其次,数据集中存在少量重复图像和部分未标记皮肤病的案例,这些问题可能影响模型的训练效果。此外,数据集的构建依赖于用户的自我报告信息,其准确性和完整性难以完全保证,可能引入偏差。最后,皮肤病图像的敏感性和隐私保护也是重要挑战,如何在数据公开与隐私保护之间取得平衡,是数据集应用过程中需要持续关注的问题。
常用场景
经典使用场景
SCIN数据集在皮肤病学研究领域具有广泛的应用价值,尤其是在皮肤病的图像识别与分类任务中。该数据集通过众包方式收集了来自美国互联网用户的皮肤病图像,涵盖了多种常见皮肤病的临床表现。研究人员可以利用这些图像进行皮肤病自动诊断算法的开发与验证,特别是在深度学习模型的训练中,SCIN数据集提供了丰富的图像样本和详细的元数据,有助于提升模型的准确性和泛化能力。
衍生相关工作
SCIN数据集的发布推动了皮肤病图像识别领域的多项经典研究。基于该数据集,研究人员开发了多种深度学习模型,用于皮肤病的自动分类与诊断。例如,一些研究利用SCIN数据集中的图像和元数据,探索了皮肤病在不同肤色人群中的表现差异,并提出了针对性的诊断算法。此外,SCIN数据集还被用于评估众包方法在医学数据收集中的有效性,为其他医学领域的众包数据收集提供了参考。这些研究不仅丰富了皮肤病学的学术成果,还为皮肤病诊断技术的进步奠定了基础。
数据集最近研究
最新研究方向
在皮肤病学领域,SCIN数据集通过众包方式收集了来自互联网用户的多样化皮肤病图像,为医学研究和教育提供了宝贵的资源。该数据集不仅包含了丰富的皮肤病图像,还涵盖了自我报告的人口统计信息、病史和症状数据,以及皮肤类型评估。这些数据的多样性和代表性为皮肤病学研究提供了新的视角,特别是在皮肤病的早期诊断和人工智能辅助诊断系统的开发中具有重要意义。SCIN数据集的发布填补了现有皮肤病数据集在多样性和代表性方面的空白,推动了皮肤病学研究的进一步发展。
以上内容由遇见数据集搜集并总结生成



