five

scin

收藏
Hugging Face2025-08-04 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/google/scin
下载链接
链接失效反馈
官方服务:
资源简介:
SCIN数据集是一个开放的皮肤病图像网络,旨在补充来自卫生系统来源的皮肤病数据集,并提供来自互联网用户的代表性图像。该数据集包含5,000多个志愿者贡献(10,000多张图像)的常见皮肤病情况。数据包括图像、自我报告的人口统计、病史和症状信息,以及自我报告的Fitzpatrick皮肤类型(sFST)。此外,还提供了皮肤状况和估计的Fitzpatrick皮肤类型(eFST)的皮肤科医生标签以及外行人估计的Monk皮肤色调(eMST)标签。

The SCIN Dataset is an open dermatological image network that aims to complement dermatological datasets sourced from healthcare systems and provide representative images from internet users. This dataset contains over 5,000 volunteer contributions (over 10,000 images) covering common dermatological conditions. The collected data includes images, self-reported demographics, medical history and symptom information, as well as self-reported Fitzpatrick Skin Type (sFST). Additionally, dermatologist labels for skin conditions and estimated Fitzpatrick Skin Type (eFST), as well as layperson-estimated Monk Skin Tone (eMST) labels are also provided.
提供机构:
Google
创建时间:
2025-08-04
原始信息汇总

SCIN 数据集概述

数据集基本信息

  • 数据集名称: SCIN (Skin Condition Image Network)
  • 发布机构: Google Research
  • 许可证: SCIN Data Use License
  • 数据量: 5,033个案例(10,000+张图像)
  • 存储大小: 12.6 GB
  • 下载大小: 12.6 GB
  • 发布日期: 2024年
  • 主页: https://github.com/google-research-datasets/scin
  • 论文: https://doi.org/10.1001/jamanetworkopen.2024.46615

数据集内容

  • 数据来源: 美国Google搜索用户自愿捐赠的皮肤病症图像
  • 数据类型:
    • 皮肤病症图像(每案例最多3张)
    • 用户自报的 demographics、病史、症状信息
    • 用户自报的 Fitzpatrick 皮肤类型 (sFST)
    • 皮肤科医生标注的皮肤病症和估计的 Fitzpatrick 皮肤类型 (eFST)
    • 非专业人士估计的 Monk 皮肤色调 (eMST)

数据集结构

主要字段

  • 案例标识: case_id, source, release, year
  • 人口统计学: age_group, sex_at_birth, fitzpatrick_skin_type, race_ethnicity_*
  • 皮肤病症特征: textures_*, body_parts_*, condition_symptoms_*, other_symptoms_*
  • 图像信息: image_*_path, image_*_shot_type
  • 专业标注:
    • 皮肤病症: dermatologist_skin_condition_*, weighted_skin_condition_label
    • 皮肤类型: dermatologist_fitzpatrick_skin_type_*
    • 皮肤色调: monk_skin_tone_label_*

使用注意事项

  • 包含医疗图像,部分内容可能敏感
  • 禁止尝试重新识别或重新链接任何个体数据
  • 使用需遵守 SCIN Data Use License

引用信息

bibtex @article{{10.1001/jamanetworkopen.2024.46615, author = {{Ward, Abbi and Li, Jimmy and Wang, Julie and Lakshminarasimhan, Sriram and Carrick, Ashley and Campana, Bilson and Hartford, Jay and Sreenivasaiah, Pradeep K. and Tiyasirisokchai, Tiya and Virmani, Sunny and Wong, Renee and Matias, Yossi and Corrado, Greg S. and Webster, Dale R. and Smith, Margaret Ann and Siegel, Dawn and Lin, Steven and Ko, Justin and Karthikesalingam, Alan and Semturs, Christopher and Rao, Pooja}}, title = {{Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements}}, journal = {{JAMA Network Open}}, volume = {{7}}, number = {{11}}, pages = {{e2446615-e2446615}}, year = {{2024}}, month = {{11}}, issn = {{2574-3805}}, doi = {{10.1001/jamanetworkopen.2024.46615}}, url = {{https://doi.org/10.1001/jamanetworkopen.2024.46615}} }}

联系方式

  • 问题反馈: https://github.com/google-research-datasets/scin/issues
  • 联系表单: https://docs.google.com/forms/d/e/1FAIpQLSdTSw-Vz1TcTv42_REzDIa28p9-xSbpvc3AttASqC0pzZdvOA/viewform
搜集汇总
数据集介绍
main_image_url
构建方式
在皮肤病学数据资源日益重要的背景下,SCIN数据集通过创新的众包方式构建。该数据集源自美国谷歌搜索用户自愿参与的图像捐赠应用,涵盖了5000余例皮肤病例及超过10000张图像。数据采集过程严格遵循伦理规范,整合了用户自报告的人口统计学信息、病史、症状描述及Fitzpatrick皮肤类型,同时由专业皮肤科医生对皮肤状况和皮肤类型进行标注,并辅以经过培训的普通人群对Monk皮肤色调的评估,确保了数据的多维度和可靠性。
特点
SCIN数据集在皮肤病学研究中展现出显著的多样性和丰富性。其核心特征在于涵盖了广泛的皮肤状况类型,并详细记录了包括年龄组、性别、种族族群、皮肤纹理、受影响身体部位及症状等多维度元数据。该数据集特别强调了皮肤类型的多样性,通过用户自报告和专家评估的双重标注机制,提供了Fitzpatrick皮肤类型和Monk皮肤色调的标签,有效支持了针对不同肤色人群的皮肤病研究,增强了其在健康教育和医学研究中的实用价值。
使用方法
SCIN数据集适用于皮肤病学领域的健康教育与学术研究,用户可通过访问HuggingFace平台获取数据文件,主要包括记录病例信息的scin_cases.csv和包含专业标注的scin_labels.csv。研究人员可利用这些数据训练和评估皮肤病诊断模型,分析皮肤状况与人口统计学因素之间的关联,或研究不同肤色条件下的疾病表现。使用时应严格遵守数据许可协议,禁止任何试图重新识别或链接个体数据的行为,确保符合伦理要求和法律规范。
背景与挑战
背景概述
皮肤影像学作为医学人工智能交叉领域的重要分支,长期面临临床数据稀缺与多样性不足的挑战。SCIN数据集由Google Research与斯坦福医学院合作团队于2024年创建,通过搜索引擎广告招募志愿者贡献皮肤病症图像与临床元数据。该数据集包含5000余例临床案例和万余张图像,涵盖自报告的人口统计学特征、症状描述及专业皮肤科医生标注,显著丰富了皮肤病变可视化数据的多样性,为皮肤病诊断算法的发展提供了关键数据支撑。
当前挑战
该数据集致力于解决皮肤病变自动诊断中数据偏差与泛化性不足的核心难题。构建过程中面临多重挑战:需确保众包数据的医学可靠性,通过多轮专家标注验证图像质量与诊断标签准确性;需处理敏感医疗数据的伦理合规性,建立严格的身份脱敏机制;需克服肤色类型与病变表现的多样性表征问题,整合Fitzpatrick皮肤分型与Monk肤色量表等多维度标注体系。
常用场景
经典使用场景
在皮肤病学人工智能研究领域,SCIN数据集为皮肤病变自动分类模型提供了宝贵的训练资源。该数据集通过整合用户自拍的皮肤病图像与自我报告的症状信息,构建了多模态数据框架,支持计算机视觉算法学习皮肤病变的视觉特征与临床表现之间的关联。研究人员利用该数据集训练深度学习模型,实现常见皮肤病的初步筛查与分类,为远程皮肤病诊断提供技术基础。
衍生相关工作
SCIN数据集的发布催生了多项重要的衍生研究工作。在算法开发方面,研究人员基于该数据集提出了多任务学习框架,同时预测皮肤病类型和Fitzpatrick皮肤类型。在公平性研究领域,该数据集被用于分析皮肤病诊断算法在不同人口群体中的性能差异。此外,该数据集还支持了跨模态学习研究,探索图像数据与临床症状文本信息的联合建模方法,推动了皮肤病人工智能诊断系统的创新发展。
数据集最近研究
最新研究方向
在皮肤影像分析领域,SCIN数据集正推动多模态深度学习模型的创新研究,其丰富的自我报告症状与人口统计学信息为构建端到端诊断系统提供了关键支持。当前研究聚焦于利用该数据集解决皮肤科诊断中的种族多样性偏差问题,通过结合专业医师标注与患者自述数据,开发具有公平性约束的神经网络架构。相关成果已应用于皮肤癌早期筛查与罕见皮肤病识别系统,显著提升了模型在跨人群泛化能力方面的表现,为全球皮肤健康公平性研究提供了重要数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作