five

Skin Condition Image Network (SCIN) dataset|皮肤病学图像数据集|数据多样性数据集

收藏
arXiv2024-02-29 更新2024-07-23 收录
皮肤病学图像
数据多样性
下载链接:
https://github.com/google-research-datasets/scin
下载链接
链接失效反馈
资源简介:
Skin Condition Image Network (SCIN)数据集是由谷歌研究与斯坦福大学医学院合作创建的,旨在通过互联网用户的自愿贡献,收集代表性的皮肤病学图像。该数据集包含10,408张图像,涵盖了皮肤病学的多种条件,如炎症、感染和过敏反应等。创建过程中,通过Google搜索广告吸引用户上传图像,并收集了相关的年龄、性别和种族/民族信息。SCIN数据集的应用领域广泛,包括医学教育、研究和人工智能工具的开发,旨在解决现有数据集中存在的代表性和多样性不足的问题。
提供机构:
谷歌研究
创建时间:
2024-02-29
原始信息汇总

SCIN 数据集概述

数据集简介

SCIN(Skin Condition Image Network)数据集旨在补充来自卫生系统来源的公开可用皮肤病学数据集,通过互联网用户的代表性图像。该数据集从美国Google搜索用户通过自愿同意的图像捐赠应用程序收集。SCIN数据集旨在用于健康教育和研究,并增加公开可用皮肤病学图像的多样性。

数据集内容

  • 图像数量:超过5,000名志愿者的贡献(超过10,000张图像)。
  • 数据类型:包括图像、自我报告的 demographic、历史和症状信息,以及自我报告的Fitzpatrick皮肤类型(sFST)。
  • 标签信息:每份贡献都包含皮肤病学专家对皮肤状况的标签、估计的Fitzpatrick皮肤类型(eFST)和非专业人士估计的Monk皮肤色调(eMST)标签。

数据存储

数据存储在Google Cloud Storage的dx-scin-public-data桶中。

已知问题

  • 数据集中有15张重复图像(总共出现42次)。
  • 有48个案例标记为可分级,但没有皮肤状况标签。
  • 1个图像文件缺失。

许可证

SCIN数据集根据SCIN数据使用许可证发布。

DOI

数据集的DOI为10.5281/zenodo.10819503

AI搜集汇总
数据集介绍
main_image_url
构建方式
Skin Condition Image Network (SCIN) 数据集通过使用 Google 搜索广告进行众包构建。研究团队从 100 种皮肤、头发和指甲状况中生成并选择了 3000 个与皮肤相关的搜索关键词,通过这些关键词向美国成年用户展示广告,邀请他们贡献皮肤病状况的图像、人口统计和症状信息。在获得贡献者的知情同意后,数据集经过去识别化和质量检查,最终包含 10,408 张图像,来自 5,033 名互联网用户的贡献。
特点
SCIN 数据集的特点在于其广泛的代表性和多样性,涵盖了常见的皮肤病状况,包括过敏、感染和炎症性皮肤病。数据集还包括了皮肤病专家的诊断标签以及估计的 Fitzpatrick 皮肤类型 (eFST) 和 Monk 皮肤色调 (eMST) 标签。此外,数据集的贡献者中女性和年轻用户的比例较高,反映了互联网用户的实际分布。
使用方法
SCIN 数据集可用于皮肤病学的教育和研究,以及人工智能工具的开发和评估。研究人员可以通过访问数据集的 GitHub 仓库获取数据,并利用这些数据训练和验证皮肤病诊断模型。数据集的多样性和代表性使其成为评估模型在不同人群中表现的重要资源,有助于提高人工智能工具在实际应用中的准确性和公平性。
背景与挑战
背景概述
皮肤状况图像网络(Skin Condition Image Network, SCIN)数据集由Google Research与斯坦福大学医学院合作创建,旨在解决现有临床来源健康数据集无法全面反映真实世界疾病多样性的问题。该数据集于2023年3月启动,通过Google搜索广告邀请公众贡献皮肤病学图像及相关信息,最终收集了来自美国互联网用户的5,033份贡献,包含10,408张图像。SCIN数据集不仅包含皮肤病专家的诊断标签,还估计了Fitzpatrick皮肤类型(eFST)和Monk皮肤色调(eMST)标签,为皮肤病学研究、医学教育和人工智能工具开发提供了宝贵的资源。
当前挑战
SCIN数据集在构建过程中面临多项挑战。首先,如何通过搜索广告有效吸引和筛选出符合条件的贡献者,确保数据集的代表性和多样性,是一个复杂的问题。其次,数据的去识别化和隐私保护措施必须严格,以防止潜在的再识别风险。此外,皮肤病专家对图像的诊断标签与图像质量之间的相关性较弱,这可能影响数据集在训练AI模型时的有效性。最后,数据集中女性和年轻贡献者的高比例,以及非白人种族或族裔贡献者的比例,虽然反映了互联网用户的真实情况,但也可能引入一定的偏见,需要在后续研究中加以校正。
常用场景
经典使用场景
Skin Condition Image Network (SCIN) 数据集的经典应用场景主要集中在皮肤病学的研究和教育领域。该数据集通过众包方式收集了大量真实的皮肤病图像,涵盖了多种皮肤病症状和不同肤色类型。这些图像被用于训练和验证皮肤病诊断的机器学习模型,帮助提高模型的准确性和泛化能力。此外,SCIN 数据集也被用于开发皮肤病学的在线教育资源,提供多样化的病例图像,以增强医学生和初级医生的临床诊断能力。
衍生相关工作
SCIN 数据集的发布催生了一系列相关研究和工作。例如,基于 SCIN 数据集的机器学习模型被进一步优化,用于自动分类和诊断多种皮肤病。此外,研究人员还利用 SCIN 数据集进行跨肤色和种族的皮肤病表现研究,探讨不同人群中皮肤病的发病率和表现差异。SCIN 数据集的成功应用也为其他健康领域的众包数据集创建提供了借鉴和参考。
数据集最近研究
最新研究方向
在皮肤病学领域,Skin Condition Image Network (SCIN) 数据集的最新研究方向主要集中在利用大规模的众包图像数据来提升皮肤病诊断的准确性和公平性。通过使用Google搜索广告进行众包,SCIN数据集不仅收集了大量多样化的皮肤病图像,还包含了详细的皮肤病症状和患者人口统计信息。这一方法有效地弥补了传统临床数据集中存在的种族、性别和地理分布不均的问题。研究者们正在探索如何利用这些数据来训练和验证人工智能模型,以提高其在不同人群中的诊断性能,并推动皮肤病学教育和研究的进步。此外,SCIN数据集的开放性和多样性也为研究公平性和偏见检测提供了宝贵的资源,有助于开发更加公正和普及的皮肤病诊断工具。
相关研究论文
  • 1
    Crowdsourcing Dermatology Images with Google Search Ads: Creating a Real-World Skin Condition Dataset谷歌研究 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录