VinBigData Chest X-ray Image Detection

github2022-12-30 更新2024-05-31 收录

下载链接：

https://github.com/bibiana1202/VinBigData-Chest-X-ray-Image-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自越南两家医院的胸部X光图像，用于检测与肺部相关的14种疾病。数据集包括15,000张训练图像和3,000张测试图像，图像尺寸为512x512或1024x1024。数据集旨在通过数据增强和不同模型的性能比较来提高疾病检测的准确性。

This dataset comprises chest X-ray images sourced from two hospitals in Vietnam, aimed at detecting 14 types of lung-related diseases. It includes 15,000 training images and 3,000 test images, with image dimensions of either 512x512 or 1024x1024. The dataset is designed to enhance disease detection accuracy through data augmentation and performance comparisons across different models.

创建时间：

2022-11-21

原始信息汇总

数据集概述：VinBigData-Chest-X-ray-Image-Detection

数据集介绍

目的：检测与肺部相关的14种疾病，通过数据增强比较不同模型的性能。

数据集内容

来源：越南医院（108医院和河内医科大学医院）。
训练图像：15,000张（正常：10,606张，患者：4,394张）。
测试图像：3,000张。
图像尺寸：512 x 512, 1024 x 1024。
疾病分类：14种肺部相关疾病。

数据处理方法

工具：OpenCV, PyTorch, numpy, pandas, sklearn, seaborn, matplotlib。
数据增强：旋转（随机）、翻转（水平）、放大（10%）、Cutmix、CLAHE、均衡化。
模型：Faster RCNN, YOLOv5, RetinaNet, Yolof, Yolox, CenterNet。

实验结果

数据增强效果：
- 类别A（无增强）：15000张。
- 类别B（基本增强）：15000张 + 6250张。
- 类别C（高级增强）：15000张 + 6250张。
模型性能比较：
- 不同模型在不同增强策略下的Kaggle评分。
集成模型性能：
- 不同集成策略下的Kaggle评分比较。

讨论

模型选择：
- 一阶段模型：YOLOv5, Yolox等，因其速度快且在单阶段检测中知名。
- 二阶段模型：Faster R-CNN，作为基础模型进行研究。
数据增强策略：
- 针对数据不平衡问题，采用多种增强技术进行数据扩充。
- 结果显示，增强技术能有效提升模型性能。

参考文献

提供了多个Kaggle链接，用于深入了解数据集分析和模型训练方法。

搜集汇总

数据集介绍

构建方式

VinBigData Chest X-ray Image Detection数据集的构建基于越南两家医院（108医院和河内医科大学医院）的胸部X光图像数据。数据集包含15,000张训练图像和3,000张测试图像，其中训练图像中正常样本占10,606张，患者样本占4,394张。每张图像均标注了边界框信息，包括图像ID、类别ID以及边界框的坐标。图像经过预处理，尺寸统一调整为512x512或1024x1024。数据增强技术如旋转、翻转、缩放等被应用于扩充数据集，以提升模型的泛化能力。

特点

该数据集的特点在于其专注于胸部X光图像中的14种肺部相关疾病的检测。数据集中的图像经过多种数据增强处理，形成了三个不同的子集：未增强的A类、基础增强的B类以及包含多种增强技术的C类。数据集中存在显著的数据不平衡问题，部分类别的样本数量较少，且单张图像可能包含多个标签。此外，数据集提供了丰富的边界框标注信息，便于目标检测任务的研究与开发。

使用方法

该数据集的使用方法主要包括数据加载、预处理和模型训练。用户可以通过OpenCV、PyTorch等工具加载图像数据，并结合numpy、pandas等库进行数据分析和预处理。数据增强技术如旋转、翻转、缩放等可用于提升模型的鲁棒性。用户可以选择多种目标检测模型（如Faster RCNN、YOLOv5等）进行训练，并通过Kaggle平台提交结果以评估模型性能。此外，数据集还可用于研究数据不平衡问题及其解决方案，如通过数据增强技术对少数类样本进行上采样。

背景与挑战

背景概述

VinBigData Chest X-ray Image Detection数据集由越南的108医院和河内医科大学医院联合创建，旨在通过胸部X光图像检测14种与肺部相关的疾病。该数据集的创建背景源于胸部X光检查在医学诊断中的基础性和重要性，尤其是在生命关键部位的准确诊断需求。通过引入人工智能技术，该数据集旨在辅助医生更准确地识别病变，特别是那些容易被忽视的小结节。该数据集不仅为医学影像分析提供了丰富的数据资源，还推动了深度学习模型在医学图像检测领域的应用与发展。

当前挑战

该数据集面临的主要挑战包括数据不平衡问题，即不同类别的标签数量差异较大，导致模型在训练过程中难以均衡学习各类病变特征。此外，数据集中正常样本与患者样本的比例失衡，进一步加剧了模型训练的难度。在构建过程中，研究人员还面临数据增强技术的选择与优化问题，如何通过旋转、翻转、缩放等手段有效提升模型的泛化能力，同时避免过拟合现象的发生。最后，如何在有限的计算资源下，高效训练复杂的深度学习模型，也是该数据集在实际应用中需要克服的技术难题。

常用场景

经典使用场景

VinBigData Chest X-ray Image Detection数据集在医学影像分析领域具有广泛的应用，尤其是在胸部X光片的异常检测中。该数据集通过提供大量标注的胸部X光图像，支持研究人员开发和验证深度学习模型，用于自动检测和分类14种不同的肺部疾病。其经典使用场景包括在Kaggle等平台上举办的胸部X光异常检测竞赛，参赛者利用该数据集训练模型，以提高诊断的准确性和效率。

解决学术问题

该数据集解决了医学影像分析中的多个关键学术问题，尤其是胸部X光片的自动异常检测。通过提供丰富的标注数据，研究人员能够探索和优化深度学习模型，如Faster R-CNN、YOLOv5等，以提升模型在复杂医学影像中的表现。此外，数据集中的数据增强技术（如旋转、翻转、CLAHE等）帮助解决了数据不平衡问题，进一步提高了模型的泛化能力。

衍生相关工作

基于VinBigData Chest X-ray Image Detection数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种深度学习模型（如Faster R-CNN、YOLOv5等）并进行性能比较，探索了数据增强技术对模型性能的影响。此外，该数据集还催生了多个Kaggle竞赛项目，参赛者通过不同的模型集成和数据增强策略，进一步推动了胸部X光异常检测技术的发展。这些工作不仅提升了模型的性能，还为未来的医学影像分析研究提供了宝贵的经验和参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集