covid_lungs_dataset

github2020-07-31 更新2024-05-31 收录

下载链接：

https://github.com/amitlohan/covid_lungs_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从多个互联网来源下载的图像，通过使用Unet分割肺部后，将整个数据集分为训练、测试和验证集。数据集来源包括Kaggle肺炎检测竞赛、RSNA数据集、covid-chestxray-dataset等，并详细列出了各类别图像的数量。

This dataset comprises images downloaded from multiple internet sources. After segmenting the lungs using Unet, the entire dataset is divided into training, testing, and validation sets. The sources of the dataset include the Kaggle Pneumonia Detection Competition, the RSNA dataset, the covid-chestxray-dataset, among others, with detailed counts of images in each category provided.

创建时间：

2020-04-17

原始信息汇总

covid_lungs_dataset 概述

数据集来源

Kaggle Pneumonia Detection Competition
Kaggle RSNA dataset
https://github.com/ieee8023/covid-chestxray-dataset
西班牙Twitter来源
意大利来源

数据集划分

数据集被分为训练集（Train）、验证集（Val）和测试集（Test），每个类别中的图像来自不同的来源，以确保多样性和独立性。

图像数量统计

训练集（Train）

正常（Normal）: 3199张
轻度不透明（Mild Opacity(noop_ab)）: 2807张
肺不透明或肺炎（Lung Opacity or Pneumonia）: 5192张
Covid阳性（Covid Positive）: 152张

验证集（Val）

正常（Normal）: 1035张
轻度不透明（Mild Opacity(noop_ab)）: 786张
肺不透明或肺炎（Lung Opacity or Pneumonia）: 1587张
Covid阳性（Covid Positive）: 92张

测试集（Test）

正常（Normal）: 1341张
轻度不透明（Mild Opacity(noop_ab)）: 407张
肺不透明或肺炎（Lung Opacity or Pneumonia）: 752张
Covid阳性（Covid Positive）: 116张

搜集汇总

数据集介绍

构建方式

covid_lungs_dataset的构建过程基于多源数据的整合与处理。数据集中的图像来源于多个公开平台，包括Kaggle的肺炎检测竞赛、RSNA数据集、GitHub上的COVID胸部X光数据集，以及来自西班牙和意大利的社交媒体资源。这些图像经过Unet模型进行肺部区域分割后，被划分为训练集、测试集和验证集。为确保数据的多样性和独立性，COVID阳性类别的图像在训练、测试和验证集中分别来自不同的来源，而正常类别的图像在验证集中则混合了训练和测试集的来源。

特点

covid_lungs_dataset的特点在于其多样化的数据来源和精细的分类标签。数据集涵盖了正常、轻度浑浊、肺部浑浊或肺炎以及COVID阳性四种类别的图像，每种类别的图像数量分布合理。训练集、验证集和测试集的划分确保了模型评估的可靠性。特别值得注意的是，COVID阳性类别的图像在训练、测试和验证集中均来自不同的数据源，这有效避免了数据泄露问题，提升了模型的泛化能力。

使用方法

covid_lungs_dataset的使用方法主要围绕医学影像分析任务展开。研究人员可以利用该数据集训练深度学习模型，用于肺部疾病的分类与检测，尤其是COVID-19的诊断。数据集已预先划分为训练集、验证集和测试集，用户可直接加载并用于模型训练与评估。在训练过程中，建议对图像进行标准化处理，并结合数据增强技术以提升模型性能。验证集可用于超参数调优，而测试集则用于最终的性能评估，确保模型在未见数据上的表现。

背景与挑战

背景概述

covid_lungs_dataset数据集是在COVID-19疫情期间创建的，旨在通过胸部X光图像辅助诊断肺部疾病，特别是COVID-19感染。该数据集由多个互联网来源的图像组成，包括Kaggle的肺炎检测竞赛、RSNA数据集以及来自西班牙和意大利的公开数据。研究人员使用Unet模型对肺部进行了分割，并将数据集划分为训练集、测试集和验证集。该数据集的核心研究问题是通过图像分类技术区分正常肺部、轻度不透明度、肺炎和COVID-19阳性病例。其创建为医学影像分析领域提供了重要的数据支持，推动了基于深度学习的肺部疾病诊断研究。

当前挑战

covid_lungs_dataset面临的挑战主要体现在两个方面。首先，数据集中的图像来源多样，包括不同设备和机构的X光图像，这可能导致图像质量、分辨率和标注标准的不一致，增加了模型训练的复杂性。其次，COVID-19阳性样本数量相对较少，可能导致模型在识别COVID-19病例时出现偏差或过拟合问题。此外，数据集中不同类别的样本分布不均衡，例如正常样本远多于COVID-19阳性样本，这进一步加剧了模型训练的难度。构建过程中，研究人员还需解决数据隐私和伦理问题，确保公开数据的使用符合相关法律法规。

常用场景

经典使用场景

covid_lungs_dataset数据集在医学影像分析领域具有重要应用，特别是在COVID-19肺部病变的自动检测和分类中。该数据集通过提供来自不同来源的肺部X光图像，支持研究人员开发深度学习模型，以区分正常肺部、轻度不透明度、肺炎和COVID-19阳性病例。这种分类能力对于快速诊断和病情评估至关重要。

实际应用

在实际应用中，covid_lungs_dataset被广泛用于开发智能诊断系统，特别是在资源有限的地区。通过利用该数据集训练的模型，医疗机构能够快速筛查COVID-19患者，优化医疗资源的分配。此外，该数据集还被用于研究肺部病变的进展，帮助医生制定个性化的治疗方案，提升患者的治疗效果。

衍生相关工作

基于covid_lungs_dataset，许多经典的研究工作得以展开。例如，研究人员开发了基于深度学习的肺部病变检测算法，这些算法在COVID-19诊断中表现出色。此外，该数据集还催生了一系列关于医学影像分割和分类的研究，推动了医学影像分析领域的进步，并为未来的研究提供了宝贵的数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集