dorsar/lung-cancer|肺癌检测数据集|医学影像分析数据集

hugging_face2024-06-30 更新2024-07-06 收录

肺癌检测

医学影像分析

下载链接：

https://hf-mirror.com/datasets/dorsar/lung-cancer

下载链接

链接失效反馈

资源简介：

该数据集包含用于肺癌检测和分类的CT扫描图像，分为四类：腺癌、大细胞癌、鳞状细胞癌和正常（非癌性）肺组织。数据集总共有315张图像，每类图像的数量分别为腺癌120张、大细胞癌51张、正常54张、鳞状细胞癌90张。该数据集适用于训练和评估用于肺癌检测和分类的机器学习模型，可用于二分类（癌性与非癌性）和多分类（特定癌症类型）。

This dataset contains CT scan images for lung cancer detection and classification. It includes images of four different categories: adenocarcinoma, large cell carcinoma, squamous cell carcinoma, and normal (non-cancerous) lung tissue. The dataset consists of 315 images, divided into 4 classes, with the distribution being: adenocarcinoma 120 images, large cell carcinoma 51 images, normal 54 images, and squamous cell carcinoma 90 images. This dataset is suitable for training and evaluating machine learning models for lung cancer detection and classification, applicable for both binary classification (cancerous vs. non-cancerous) and multi-class classification (specific cancer types).

提供机构：

dorsar

原始信息汇总

Lung Cancer CT Scan Dataset

数据集描述

该数据集包含用于肺癌检测和分类的CT扫描图像。图像分为四个类别：腺癌、大细胞癌、鳞状细胞癌和正常（非癌性）肺组织。

类别

腺癌
大细胞癌
正常（非癌性）
鳞状细胞癌

数据集统计

总图像数：315
类别数：4
类别分布：
- 腺癌：120张图像
- 大细胞癌：51张图像
- 正常：54张图像
- 鳞状细胞癌：90张图像

用途

该数据集适用于训练和评估用于肺癌检测和分类的机器学习模型。可用于二分类（癌性与非癌性）和多分类（特定癌症类型）。

AI搜集汇总

数据集介绍

构建方式

在构建肺部癌症CT扫描数据集时，研究者精心收集了315张CT扫描图像，涵盖了四种不同的类别：腺癌、大细胞癌、鳞状细胞癌以及正常（非癌性）肺组织。这些图像经过严格筛选，确保每种类别的代表性和多样性，从而为肺部癌症的检测和分类提供了丰富的数据资源。

特点

该数据集的显著特点在于其多类别分类的能力，不仅支持二元分类（癌性与非癌性），还能进行多类别分类（具体癌症类型）。此外，数据集的类别分布均衡，腺癌、大细胞癌、正常肺组织和鳞状细胞癌分别包含120、51、54和90张图像，确保了模型训练的全面性和准确性。

使用方法

该数据集适用于训练和评估用于肺部癌症检测和分类的机器学习模型。研究者可以利用这些图像进行模型的训练，以提高对不同类型肺部癌症的识别能力。同时，数据集的多类别分类特性使其在医学影像分析领域具有广泛的应用前景，为临床诊断提供了有力的技术支持。

背景与挑战

背景概述

肺癌作为全球范围内的高发病率和高死亡率疾病，其早期检测和分类对于提高患者生存率至关重要。dorsar/lung-cancer数据集由专业研究人员或机构创建，旨在通过CT扫描图像实现肺癌的自动检测与分类。该数据集包含315张CT扫描图像，涵盖四种主要肺癌类型：腺癌、大细胞癌、鳞状细胞癌以及正常肺组织。这一数据集的开发不仅为机器学习模型提供了宝贵的训练资源，还推动了医学影像分析领域的发展，特别是在肺癌诊断的自动化和精准化方面。

当前挑战

尽管dorsar/lung-cancer数据集在肺癌检测与分类方面展现了巨大潜力，但其构建和应用过程中仍面临若干挑战。首先，数据集的样本量相对较小，特别是对于某些罕见癌症类型，如大细胞癌，样本数量仅为51张，这可能影响模型的泛化能力和分类准确性。其次，不同癌症类型的图像特征差异较大，如何在多类别分类任务中有效区分这些特征，是模型训练中的一个重要难题。此外，数据集的构建还需克服图像质量不均、噪声干扰等问题，以确保训练出的模型在实际应用中具有高可靠性和稳定性。

常用场景

经典使用场景

在医学影像分析领域，dorsar/lung-cancer数据集以其丰富的CT扫描图像资源，成为肺部癌症检测与分类的经典工具。该数据集涵盖了四种主要类别：腺癌、大细胞癌、鳞状细胞癌及正常肺组织，为研究人员提供了多样的数据样本，从而能够训练和评估机器学习模型在肺部癌症诊断中的表现。

解决学术问题

该数据集在解决肺部癌症早期诊断的学术研究问题上具有重要意义。通过提供高质量的CT扫描图像，它帮助研究人员开发和验证能够准确区分癌症与非癌症组织的算法，从而提高诊断的准确性和效率。此外，数据集的多类别分类能力也为特定类型癌症的研究提供了有力支持，推动了医学影像分析技术的发展。

衍生相关工作

基于dorsar/lung-cancer数据集，许多相关研究工作得以展开。例如，有研究者利用该数据集开发了深度学习模型，显著提升了肺部癌症的检测精度；还有研究聚焦于数据增强技术，以克服数据集样本量有限的挑战。这些衍生工作不仅丰富了医学影像分析的理论体系，也为实际临床应用提供了新的技术手段。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。