as-cle-bert/breastcanc-ultrasound-class|乳腺癌数据集|医学影像数据集

hugging_face2024-03-29 更新2024-06-11 收录

乳腺癌

医学影像

下载链接：

https://hf-mirror.com/datasets/as-cle-bert/breastcanc-ultrasound-class

下载链接

链接失效反馈

资源简介：

该数据集包含647张乳腺癌超声图像，其中437张为良性乳腺癌图像，210张为恶性乳腺癌图像。数据集来源于Walid Al-Dhabyani及其合作者于2019年提供的数据，旨在为乳腺癌的精确医学和诊断工具提供支持。数据集采用CC系列许可，使用时需引用相关文献。

提供机构：

as-cle-bert

原始信息汇总

数据集概述

数据集名称

名称: breastcanc-ultrasound-class

数据集特征

特征1: image
- 数据类型: image
特征2: label
- 数据类型: class_label
  - 类别名称:
    - 0: benign_breast_cancer
    - 1: malignant_breast_cancer

数据集分割

分割名称: train
- 示例数量: 647
- 数据大小: 215979329.0 bytes
- 下载大小: 215636753 bytes

数据集配置

配置名称: default
- 数据文件:
  - 分割: train
    - 路径: data/train-*

数据集来源与组成

来源: 由Walid Al-Dhabyani及其合作者于2019年提供
组成: 包含647张图像，其中437张代表良性乳腺癌超声图像，210张代表恶性乳腺癌超声图像。

许可证与引用

许可证: CC家族许可证
引用: 当使用此数据集时，请引用Al-Dhabyani W, Gomaa M, Khaled H, Fahmy A. Dataset of breast ultrasound images. Data in Brief. 2020 Feb;28:104863. DOI: 10.1016/j.dib.2019.104863。

AI搜集汇总

数据集介绍

构建方式

该数据集源自Walid Al-Dhabyani及其合作者在2019年提供的乳腺癌超声图像数据，经过精心筛选与整理，最终形成了包含647张图像的数据集。其中，437张图像代表良性乳腺癌超声图像，210张代表恶性乳腺癌超声图像。这一构建过程确保了数据集在医学诊断领域的实用性和可靠性，为后续的深度学习模型训练提供了坚实的基础。

特点

该数据集的显著特点在于其高度的专业性和针对性，专为乳腺癌超声图像分类而设计。数据集中的图像均经过严格筛选，确保了图像质量和标签准确性。此外，数据集的标签明确，分为良性与恶性两类，便于模型训练时的分类任务。这些特点使得该数据集在乳腺癌诊断研究中具有重要的应用价值。

使用方法

使用该数据集时，用户可将其用于训练和验证乳腺癌超声图像分类模型。数据集已预先划分为训练集，用户可直接加载并应用于深度学习框架中。建议在使用过程中，结合图像增强技术以提高模型的泛化能力。此外，用户需遵循CC许可协议，并在相关研究中引用原始文献，以确保数据使用的合法性和学术诚信。

背景与挑战

背景概述

乳腺癌作为全球第四大致死性肿瘤，其高发病率与死亡率引起了广泛关注。根据全球疾病负担研究（IHME - Global Burden of Disease），2019年乳腺癌病例数占全球癌症病例的0.23%，位居各类癌症之首。为提升乳腺癌的诊断精度，Walid Al-Dhabyani及其团队于2019年创建了这一超声图像数据集，旨在为乳腺癌的早期检测与分类提供可靠的数据支持。该数据集包含647张超声图像，其中437张为良性乳腺癌图像，210张为恶性乳腺癌图像，为医学影像分析领域提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，超声图像的质量受多种因素影响，如设备性能、操作技术等，可能导致图像噪声和伪影，影响分类模型的准确性。其次，数据集的样本量相对较小，可能限制了模型的泛化能力。此外，良性与恶性乳腺癌图像的特征差异细微，增加了分类任务的复杂性。这些挑战要求研究者在数据预处理、特征提取及模型优化等方面进行深入探索，以提升乳腺癌超声图像分类的准确性与可靠性。

常用场景

经典使用场景

在乳腺癌诊断领域，as-cle-bert/breastcanc-ultrasound-class数据集的经典使用场景主要集中在超声图像的分类任务上。该数据集包含了647张超声图像，其中437张为良性乳腺癌图像，210张为恶性乳腺癌图像。通过这些图像，研究人员可以训练和验证深度学习模型，以实现对乳腺癌超声图像的自动分类，从而辅助临床医生进行更准确的诊断。

衍生相关工作

基于as-cle-bert/breastcanc-ultrasound-class数据集，研究人员开发了多种乳腺癌超声图像分类模型，并在此基础上进行了多项扩展研究。例如，有研究通过结合多模态数据（如超声图像和临床数据）来提高分类性能，还有研究探索了迁移学习在不同数据集上的应用效果。这些工作不仅提升了乳腺癌诊断的准确性，还为其他类型的癌症图像分类研究提供了借鉴和参考。

数据集最近研究

最新研究方向

在乳腺癌诊断领域，基于超声图像的深度学习模型研究正成为前沿热点。该领域研究不仅关注于提高模型的分类准确性，还致力于通过多模态数据融合提升诊断的可靠性。例如，结合超声图像与患者临床数据，构建更为精准的预测模型，以辅助医生在早期阶段识别乳腺癌的良恶性。此外，随着可解释性人工智能（XAI）技术的发展，研究者们也在探索如何使模型输出更具解释性，从而增强医疗决策的透明度和可信度。这些研究不仅推动了乳腺癌诊断技术的进步，也为全球范围内降低乳腺癌死亡率提供了有力支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息，通过气象预测模型与功率预测算法，实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台收录

ECMWF Reanalysis v5 (ERA5)

ERA5 是第五代 ECMWF 全球气候大气再分析，涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球，并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。

OpenDataLab 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国逐日降水数据集（1961-2022，0.1°/0.25°/0.5°）

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测，在传统的“降水背景场 + 降水比值场”的数据集构建思路上，尝试应用月值降水约束和地形特征校正，并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为，CHM_PRE可以较好的表征降水的空间变异性，其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78，均方根误差中位数为8.8 mm/d，KGE值中位数为0.69，与目前常用的降水数据集（CGDPA、CN05.1、CMA V2.0）有很好的一致性。数据集的时间范围为1961年至今，空间分辨率为0.1°、0.25°和0.5°，经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录