SARS-CoV-2 CT-Scan Dataset

Name: SARS-CoV-2 CT-Scan Dataset
Creator: 圣保罗大学
Published: 2020-09-25 04:35:31
License: 暂无描述

arXiv2020-09-25 更新2024-06-21 收录

下载链接：

https://www.kaggle.com/plameneduardo/sarscov2-ctscandataset/notebooks

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为SARS-CoV-2 CT-Scan Dataset，由圣保罗大学创建，包含100张医学图像，其中50张为阳性病例，50张为阴性病例。数据集通过将彩色图像转换为灰度图像，并应用频率直方图和灰度共生矩阵（GLCM）进行特征提取。该数据集主要用于通过复杂网络分析来识别和区分COVID-19病例，旨在通过图像处理技术提高病毒检测的准确性和效率。

This dataset, designated as SARS-CoV-2 CT-Scan Dataset, was developed by the University of São Paulo. It consists of 100 medical images, including 50 from positive COVID-19 cases and 50 from negative cases. The dataset converts color images to grayscale for preprocessing, and applies frequency histograms and the Gray Level Co-occurrence Matrix (GLCM) for feature extraction. It is primarily used to identify and differentiate COVID-19 cases via complex network analysis, aiming to improve the accuracy and efficiency of viral detection through image processing technologies.

提供机构：

圣保罗大学

创建时间：

2020-09-25

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量数据集是推动算法研究的基础。SARS-CoV-2 CT-Scan Dataset的构建过程体现了严谨的数据筛选与预处理策略。研究团队通过关键词检索公开的COVID-19影像资源，最终选定格式统一且易于处理的PNG图像集合。为确保类别平衡，从原始数据中精选100张CT扫描图像，其中阳性与阴性病例各占50例。图像预处理环节包含色彩空间转换，将RGB影像转化为灰度图，以适配后续特征提取流程。这种构建方式既保证了数据的代表性，又为复杂网络分析提供了结构化的输入基础。

特点

该数据集的核心特点在于其设计兼顾了医学影像分析与复杂网络建模的双重需求。图像内容涵盖COVID-19阳性与阴性患者的胸部CT扫描，每张影像均经过标准化处理，消除了格式异构性对分析的影响。数据集规模虽紧凑，但类别分布均衡，有效支持了小样本条件下的模式探索。更显著的是，研究通过频率直方图与灰度共生矩阵（GLCM）提取纹理与统计特征，将影像数据转化为高维特征向量，进而构建出可揭示类内模式的复杂网络。这种特征表示使得数据隐含的病理差异能够通过网络拓扑结构直观呈现。

使用方法

该数据集的使用方法聚焦于特征驱动下的复杂网络构建与分析。用户首先需对CT图像进行灰度化预处理，随后并行计算两类特征：一是基于像素分布的频率直方图，从中提取均值、标准差等统计量；二是利用GLCM算法在四个方向上计算对比度、相关性等纹理特征。特征向量形成后，通过欧氏距离度量样本相似性，以中位数距离为阈值构建节点连接，从而生成分别对应阳性与阴性类别的复杂网络。最终，通过分析邻接矩阵的图模式差异，可直观辨识两类影像的隐藏结构特征，为后续高层次分类任务提供网络表征基础。

背景与挑战

背景概述

在新冠疫情全球蔓延的背景下，医学影像分析成为辅助诊断的关键技术。SARS-CoV-2 CT-Scan Dataset应运而生，由圣保罗大学的研究团队于2020年创建，旨在通过计算机断层扫描图像识别新冠病毒感染。该数据集聚焦于肺部影像的二分类问题，为深度学习与复杂网络分析提供了重要实验基础，推动了医学影像智能诊断领域的发展。

当前挑战

该数据集致力于解决新冠肺炎的自动影像诊断挑战，核心在于从有限样本中提取鲁棒特征以区分感染与正常病例。构建过程中面临多重困难：早期新冠影像数据稀缺，制约了大规模模型训练；医学影像格式多样，如DICOM与NII，需统一转换为PNG格式以适配算法处理；同时，数据平衡性要求高，需精心筛选阳性与阴性样本以避免模型偏差。

常用场景

经典使用场景

在医学影像分析领域，SARS-CoV-2 CT-Scan Dataset 作为新冠疫情期间的重要数据资源，其经典使用场景聚焦于通过计算机视觉与复杂网络方法识别肺部CT影像中的病理模式。该数据集常被用于训练和验证图像分类模型，特别是结合灰度共生矩阵（GLCM）和频率直方图等特征提取技术，以区分COVID-19阳性与阴性病例，为自动化诊断工具的开发提供基准测试平台。

实际应用

在实际医疗场景中，该数据集被广泛应用于辅助诊断系统的开发与优化。基于其影像数据训练的模型可集成于医院影像归档与通信系统，帮助放射科医师快速筛查疑似COVID-19病例，减轻医疗负担。此外，它还为远程医疗与移动诊断设备提供了算法验证支持，助力公共卫生应急响应中的智能决策。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括基于复杂网络的高层分类算法开发、结合蚁群优化的特征选择方法，以及利用中介中心性等图度量进行数据分类的探索。这些工作不仅深化了医学影像与网络科学的交叉研究，还促进了迁移学习与多模态融合技术在COVID-19检测中的创新应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集