Gamified Crowdsourcing Lung Ultrasound Dataset
收藏arXiv2023-06-12 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.06773v1
下载链接
链接失效反馈官方服务:
资源简介:
Gamified Crowdsourcing Lung Ultrasound Dataset是由哈佛医学院的研究团队创建,包含2384个肺部超声视频片段,用于机器学习模型训练。数据集通过回顾性收集自203名患者,并由六位肺部超声专家进行分类标注。该数据集旨在通过游戏化的众包平台,提高标签质量,以支持机器学习模型在医疗图像处理中的应用,特别是在肺部超声图像的B线分类上,以期提高诊断速度和准确性。
The Gamified Crowdsourcing Lung Ultrasound Dataset was developed by a research team from Harvard Medical School. It contains 2,384 lung ultrasound video clips for machine learning model training. The dataset was retrospectively collected from 203 patients and annotated with classification labels by six lung ultrasound experts. It aims to improve label quality via a gamified crowdsourcing platform to support the application of machine learning models in medical image processing, particularly for B-line classification of lung ultrasound images, with the goal of enhancing diagnostic speed and accuracy.
提供机构:
哈佛医学院
创建时间:
2023-06-12
搜集汇总
数据集介绍

构建方式
在肺部超声影像分析领域,构建高质量标注数据集是推动机器学习模型发展的关键。该数据集通过回顾性收集203名患者的2384个床旁肺部超声视频片段,原始数据以DICOM格式获取并转换为MP4格式后进行去标识化处理。数据构建的核心创新在于采用游戏化众包策略:首先由六名肺部超声专家对393个片段进行独立标注,形成参考标准标签;随后通过DiagnosUs应用程序,吸引426名公众用户在八天内贡献了99,238条标注意见。平台通过内置质量控制系统,依据用户历史准确率动态筛选优质标注者,并采用多数表决机制生成众包共识标签,从而高效构建出规模可观且质量可靠的标注数据集。
特点
该数据集在肺部超声影像标注领域展现出显著特点。其标注质量经过严格验证,众包共识标签与专家参考标准的一致性达到87.9%,在统计学上不劣于专家个体平均水平。数据集涵盖三种B线分类类别,包括无B线、离散B线和融合B线,反映了临床实践中肺部病变的严重程度谱系。值得注意的是,数据标注过程呈现出鲜明的“群体智慧”效应:尽管个体众包用户的标注准确率通常低于专家,但通过聚合大量经过质量筛选的独立意见,最终共识标签能够达到甚至超越专家个体水平。此外,数据收集效率极高,仅需7条经过质量过滤的众包意见即可接近最大标注准确率,且标注成本显著低于传统专家标注模式。
使用方法
该数据集为肺部超声影像的机器学习研究提供了重要资源。研究人员可直接使用已生成的众包共识标签作为模型训练的真实基准,这些标签在B线分类任务上已证明具备专家级质量。数据集已按患者分为训练集与测试集,便于开展模型开发与验证工作。在使用过程中,可借鉴研究提出的质量控制框架,例如仅采纳众包意见高度一致的片段标签,而对存在分歧的片段进行专家复核,从而实现标注效率与质量的平衡。该数据集特别适用于开发自动化B线检测与分类算法,有望推动床旁肺部超声的标准化解读,并为构建更复杂的肺部病理识别模型奠定数据基础。
背景与挑战
背景概述
在医学影像分析领域,高质量标注数据的匮乏长期制约着机器学习模型的开发与应用。2020年至2022年间,由哈佛医学院布莱根妇女医院、麻省总医院及Centaur Labs等机构的研究团队,共同创建了Gamified Crowdsourcing Lung Ultrasound Dataset。该数据集旨在通过游戏化众包平台,高效生成肺点护理超声(POCUS)影像中B线的分类标注,以解决传统专家标注成本高昂、可扩展性不足的核心问题。其创新性地融合了众包协作与游戏化激励机制,为肺超声影像的自动化分析提供了大规模、高质量的标注资源,对推动肺部疾病(如心力衰竭、肺炎)的智能诊断工具发展具有重要影响。
当前挑战
该数据集致力于解决肺超声影像中B线自动分类的挑战,其难点在于B线的形态多样性与动态性,以及不同病理条件下(如离散型与融合型B线)的细微差异,这对标注的一致性与准确性提出了较高要求。在构建过程中,研究团队面临双重挑战:一是确保众包标注质量,需设计有效的游戏化激励与实时反馈机制,以筛选高技能标注者并降低非专业用户的错误率;二是处理医学影像固有的模糊性,部分超声剪辑存在专家间解读分歧,导致参考标准定义复杂,需通过多专家共识与留一法分析来建立可靠标注基准。
常用场景
经典使用场景
在医学影像分析领域,高质量标注数据的匮乏长期制约着机器学习模型的开发与应用。Gamified Crowdsourcing Lung Ultrasound Dataset 通过游戏化众包策略,为肺点护理超声(POCUS)影像中的B线分类提供了大规模、专家级质量的标注数据。该数据集的核心应用场景在于训练和验证深度学习模型,以自动化识别和量化肺超声影像中的B线——这些高回声线性伪影是肺充血等病理状态的关键标志。其经典使用方式体现在利用众包共识标签作为监督学习的基准,有效解决了传统专家标注成本高昂、效率低下的瓶颈,为肺超声影像的智能分析奠定了数据基础。
实际应用
在实际医疗场景中,该数据集及其标注方法展现出显著的转化潜力。它能够高效生成大规模、高质量的肺超声影像标注,直接服务于开发临床决策支持系统。例如,基于此数据集训练的模型可集成于便携式超声设备,辅助急诊科、重症监护室的医生快速识别肺水肿、评估心力衰竭严重程度,从而提升诊断的时效性与准确性。此外,游戏化众包平台本身可作为一种可持续的标注工具,被医疗机构或研究团队用于持续扩充和更新超声影像数据库,降低对稀缺专家资源的依赖,优化医疗数据标注的流程与成本效益。
衍生相关工作
该数据集的创新方法论催生了一系列相关研究,拓展了游戏化众包在生物医学数据标注中的应用边界。经典衍生工作包括探索更复杂的肺超声影像分析任务,如B线的精确分割、融合B线与离散B线的定量区分,以及识别B线之外的其它超声征象。同时,研究社区开始评估该方法在不同人群标注者(如不同医学背景水平)中的泛化能力,并尝试将其应用于其他模态的医学影像标注,如皮肤镜图像特征识别或组织病理学图像分割。这些工作共同深化了对群体智能在医学标注中可靠性、效率及局限性的理解,为构建下一代智能医疗数据基础设施提供了关键参考。
以上内容由遇见数据集搜集并总结生成



