five

covid-19-chest-x-ray-dataset|COVID-19数据集|医学影像数据集

收藏
github2024-04-20 更新2024-05-31 收录
COVID-19
医学影像
下载链接:
https://github.com/v7labs/covid-19-xray-dataset
下载链接
链接失效反馈
资源简介:
该数据集包含6500张AP/PA胸片X光图像,具有像素级的多边形肺部分割。数据集中有517例COVID-19病例。每张图像包含两个肺分割掩码(以多边形表示,包括心脏后方的区域),肺炎类型标签(病毒性、细菌性、真菌性、健康/无),以及COVID-19患者的额外标签,如年龄、性别、体温、位置、插管状态、ICU入院和患者结果。肺部注释遵循像素级边界的多边形。这些可以导出为`COCO`、`VOC`或`Darwin JSON`格式。每个注释文件包含原始全分辨率图像的URL以及缩略图。

This dataset comprises 6,500 AP/PA chest X-ray images with pixel-level polygonal lung segmentation. It includes 517 cases of COVID-19. Each image contains two lung segmentation masks (represented as polygons, including areas behind the heart), labels for the type of pneumonia (viral, bacterial, fungal, healthy/none), and additional labels for COVID-19 patients such as age, gender, body temperature, location, intubation status, ICU admission, and patient outcome. The lung annotations adhere to pixel-level boundary polygons. These can be exported in `COCO`, `VOC`, or `Darwin JSON` formats. Each annotation file includes the URL of the original full-resolution image as well as a thumbnail.
创建时间:
2020-06-18
原始信息汇总

COVID-19 xray 数据集概述

数据集内容

  • 图像数量:包含6500张AP/PA胸片图像。
  • COVID-19案例:其中包含517例COVID-19病例。
  • 图像特征:每张图像包含两个“肺”分割掩码(以多边形表示,包括心脏后方的区域),肺炎类型标签(病毒性、细菌性、真菌性、健康/无),以及COVID-19患者的额外标签(年龄、性别、体温、位置、插管状态、ICU入院和患者结果)。

数据集使用

  • 下载命令
    • 所有图像:darwin dataset pull v7-labs/covid-19-chest-x-ray-dataset:all-images
    • COVID-19专用图像:darwin dataset pull v7-labs/covid-19-chest-x-ray-dataset:covid-only
  • 警告:此数据集不应用于临床诊断。

图像与标注

  • 图像分辨率:范围从156x156到5600x4700像素。
  • 肺部标注:肺部分割包括心脏大部分,有助于评估病毒性肺炎的严重程度。
  • 标注格式:支持COCO, VOC, 和 Darwin JSON格式。
  • 忽略类:医疗设备如起搏器和标记物被标记为“忽略”类,建议在肺部分析中排除。

数据来源与许可

特别感谢

  • CloudFactory:提供人工标注劳动力。
  • 多位放射学专家:提供专业知识和支持。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对大量胸部X光片的详细标注与分类,涵盖了6500张AP/PA胸部X光图像,并附有像素级的肺部分割多边形标注。这些图像主要来源于两个主要数据源:一是由Joseph Paul Cohen等人收集的COVID-19胸部X光数据集,包含517例COVID-19病例;二是从Mendeley数据集中获取的5863张图像。所有图像均由人工使用Auto-Annotate工具进行标注,并经过人工审核,确保标注的准确性和一致性。此外,数据集还包含了患者的详细信息,如年龄、性别、体温、插管状态等,为研究提供了丰富的背景数据。
使用方法
使用该数据集时,用户可以通过Darwin-py工具进行下载,支持选择全部图像或仅包含COVID-19的图像。数据集的标注文件支持COCO、VOC和Darwin JSON格式,便于不同平台的模型训练和评估。用户可以根据图像的分辨率、标注类型或标签进行筛选,以满足特定的研究需求。此外,数据集提供了详细的元数据,包括患者的健康状况和治疗信息,这些数据可以用于构建更复杂的预测模型。需要注意的是,该数据集不适用于临床诊断,主要用于学术研究和模型开发。
背景与挑战
背景概述
COVID-19胸腔X光数据集是由V7 Labs与多个研究机构合作创建的,旨在为COVID-19的医学影像分析提供高质量的资源。该数据集包含了6500张AP/PA胸腔X光图像,其中517例为COVID-19病例,且每张图像均带有像素级的肺部分割标注。数据集的创建得益于Joseph Paul Cohen、Paul Morrison和Lan Dao等研究人员的贡献,他们通过arXiv:2003.11597论文公开了COVID-19图像数据集。此数据集不仅为COVID-19的早期诊断提供了重要的研究基础,还为肺部疾病的自动检测和分类提供了宝贵的资源。
当前挑战
该数据集在构建过程中面临多项挑战。首先,图像的分辨率和来源各异,最大图像为5600x4700像素,最小为156x156像素,这为模型的训练和验证带来了不一致性。其次,部分便携式X光图像质量较低,且与严重病例高度相关,可能导致分类模型产生偏差。此外,数据集中包含的侧位X光图像未进行肺部分割标注,需在检测任务中被忽略。最后,医疗仪器和标记物的存在增加了图像处理的复杂性,需通过‘忽略’类进行过滤。这些挑战要求研究者在数据预处理和模型设计中采取相应的策略,以确保模型的准确性和鲁棒性。
常用场景
经典使用场景
在医学影像分析领域,COVID-19胸部X光数据集被广泛用于开发和验证基于深度学习的肺炎检测模型。该数据集包含了6500张带有像素级肺部分割的AP/PA胸部X光图像,其中517例为COVID-19病例。研究者可以利用这些图像进行肺部分割、病灶检测以及肺炎类型的分类,尤其是在区分COVID-19与其他类型的肺炎方面,该数据集提供了丰富的标注信息,如年龄、性别、体温等,极大地提升了模型的准确性和鲁棒性。
解决学术问题
该数据集为解决COVID-19快速诊断和肺炎类型分类的学术问题提供了重要支持。通过提供高分辨率的胸部X光图像和详细的肺部分割标注,研究者能够训练出更为精确的深度学习模型,从而在临床环境中实现快速、准确的肺炎诊断。此外,该数据集还为研究不同类型肺炎的影像学特征提供了宝贵的资源,推动了医学影像分析领域的技术进步。
实际应用
在实际应用中,COVID-19胸部X光数据集被广泛用于开发自动化诊断工具,这些工具能够辅助放射科医生快速识别COVID-19病例,并区分其与其他类型的肺炎。通过集成到医院的影像分析系统中,这些工具可以显著提高诊断效率,减少医生的工作负担,并在疫情高峰期提供重要的决策支持。此外,该数据集还可用于培训新一代的医学影像分析算法,以应对未来可能出现的类似公共卫生事件。
数据集最近研究
最新研究方向
在COVID-19疫情的背景下,COVID-19胸部X光数据集成为了医学影像分析领域的前沿研究焦点。该数据集不仅包含了6500张带有像素级肺部分割的AP/PA胸部X光图像,还特别标注了517例COVID-19病例,为深度学习模型在COVID-19检测中的应用提供了宝贵的资源。当前的研究主要集中在通过深度学习技术,如卷积神经网络(CNN),对这些图像进行自动分类和分割,以提高诊断效率和准确性。此外,结合患者的人口统计学信息和临床数据,研究者们正在探索多模态数据融合的方法,以进一步提升模型的预测能力。这些研究不仅在医学影像分析领域具有重要意义,也为全球抗击COVID-19疫情提供了有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录