five

LuminaAI/RCL-Breast-Cancer-Biopsy-7500|乳腺癌数据集|图像分类数据集

收藏
hugging_face2025-04-08 更新2024-06-22 收录
乳腺癌
图像分类
下载链接:
https://hf-mirror.com/datasets/LuminaAI/RCL-Breast-Cancer-Biopsy-7500
下载链接
链接失效反馈
资源简介:
该数据集包含乳腺癌组织的病理学图像,分为良性和恶性两类。每个样本存储在一个单独的图像文件中,并按类别组织在相应的文件夹中。数据集的结构使其适用于Lumina AI的Random Contrast Learning (RCL)算法。数据集的使用示例代码、许可证信息和原始来源也在README中提供。

This dataset contains histopathological images of breast cancer tissues, divided into two classes: benign and malignant. Each sample is stored in a separate image file, organized into respective class folders. The dataset is structured to be compatible with Lumina AIs Random Contrast Learning (RCL) algorithm. The README also provides example code for loading the dataset using PrismRCL, along with license information and the original source of the dataset.
提供机构:
LuminaAI
原始信息汇总

Breast Cancer Histopathological Dataset (BreakHis)

概述

该数据集包含乳腺癌组织的组织病理学图像,分为良性(benign)和恶性(malignant)两类。每个样本存储在单独的图像文件中,并按相应的类别文件夹进行组织。该数据集的结构与Lumina AI的随机对比学习(RCL)算法通过PrismRCL应用程序或API兼容。

数据集结构

数据集的组织结构如下:

Breast_Cancer_Histopathological_Dataset/ train_data/ benign/ sample_0.png sample_1.png ... malignant/ sample_0.png sample_1.png ... test_data/ benign/ sample_0.png sample_1.png ... malignant/ sample_0.png sample_1.png ...

注意:所有图像文件名在所有类别文件夹中必须是唯一的。

特征

  • 图像数据:每个文件包含一张乳腺癌组织的组织病理学图像。
  • 类别:有两类,每类根据组织类型(良性或恶性)分别用单独的文件夹表示。

使用方法

以下是使用PrismRCL加载数据集的示例:

C:PrismRCLPrismRCL.exe chisquared rclticks=10 boxdown=0 data=C:path oBreast_Cancer_Histopathological_Dataset rain_data testdata=C:path oBreast_Cancer_Histopathological_Dataset est_data savemodel=C:path omodelsmymodel.classify log=C:path olog_files stopwhendone

解释:

  • C:PrismRCLPrismRCL.exe:分类应用程序
  • chisquared:训练评估方法
  • rclticks=10:RCL训练参数
  • boxdown=0:RCL训练参数
  • data=C:path oBreast_Cancer_Histopathological_Dataset rain_data:训练数据路径
  • testdata=C:path oBreast_Cancer_Histopathological_Dataset est_data:测试数据路径
  • savemodel=C:path omodelsmymodel.classify:保存结果模型的路径
  • log=C:path olog_files:日志文件路径
  • stopwhendone:训练完成后结束PrismRCL会话

许可证

该数据集根据知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)进行许可。详细信息请参见LICENSE文件。

原始来源

该数据集最初来源于乳腺癌组织病理学数据库(BreakHis)。您可以在以下链接找到原始数据集和更多信息:

BreakHis: Breast Cancer Histopathological Database

如果在研究或应用中使用此数据集,请引用原始来源。推荐的引用格式如下:

Spanhol, F. A., Oliveira, L. S., Petitjean, C., Heutte, L. (2016). A Dataset for Breast Cancer Histopathological Image Classification. IEEE Transactions on Biomedical Engineering (TBME), 63(7):1455-1462.

此引用确保了对BreakHis数据集原始创建者的正确归属。

附加信息

数据值已准备就绪,确保与PrismRCL兼容。自2.4.0版本起,无需进行归一化处理。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Breast Cancer Histopathological Database (BreakHis),经过精心整理与分类,形成了包含良性与恶性两类乳腺癌症组织病理学图像的集合。数据集的构建遵循严格的组织结构,将图像样本分别存储于对应的类别文件夹中,确保每张图像文件名在所有类别文件夹中唯一。此结构设计旨在无缝对接Lumina AI的随机对比学习(RCL)算法,通过PrismRCL应用或API进行高效处理。
特点
本数据集的核心特点在于其图像数据的精细分类与组织。每张图像均为乳腺癌症组织的病理学图像,清晰展示了不同类型的组织特征。数据集内含两类样本,分别对应良性与恶性肿瘤,这种明确的分类有助于深度学习模型进行精准的分类训练。此外,数据集的结构设计确保了与PrismRCL算法的高度兼容性,无需额外预处理即可直接用于模型训练。
使用方法
使用该数据集时,用户可通过PrismRCL应用或API直接加载数据,进行分类模型的训练与评估。具体操作中,用户需指定训练数据与测试数据的路径,并设置相应的RCL训练参数,如rclticks和boxdown。训练完成后,模型将自动保存,并生成相应的日志文件。此过程无需数据预分割,且已优化参数设置,确保用户能够高效利用数据集进行乳腺癌病理图像的分类研究。
背景与挑战
背景概述
乳腺癌作为全球女性最常见的恶性肿瘤之一,其早期诊断对于提高患者生存率至关重要。LuminaAI/RCL-Breast-Cancer-Biopsy-7500数据集,源自Breast Cancer Histopathological Database (BreakHis),由Spanhol等人在2016年创建,旨在通过组织病理学图像的分类来辅助乳腺癌的诊断。该数据集包含7500张乳腺组织病理学图像,分为良性和恶性两类,为研究人员提供了一个标准化的工具,以开发和验证基于图像的乳腺癌诊断算法。其主要研究人员包括Spanhol, Oliveira, Petitjean和Heutte,他们的工作在IEEE Transactions on Biomedical Engineering上发表,对乳腺癌诊断领域产生了深远影响。
当前挑战
尽管LuminaAI/RCL-Breast-Cancer-Biopsy-7500数据集在乳腺癌诊断领域具有重要意义,但其构建和应用过程中仍面临若干挑战。首先,图像数据的多样性和复杂性使得分类模型的训练变得困难,尤其是在处理不同放大倍数和图像质量的样本时。其次,数据集的规模和标注的准确性直接影响模型的性能,任何标注错误都可能导致诊断结果的偏差。此外,该数据集的适用性受限于其特定的组织病理学图像类型,对于其他类型的乳腺癌诊断可能需要额外的数据集或预处理步骤。最后,数据集的更新和扩展也是一个持续的挑战,以确保其能够反映乳腺癌诊断领域的最新进展。
常用场景
经典使用场景
在乳腺癌病理图像分类领域,LuminaAI/RCL-Breast-Cancer-Biopsy-7500数据集被广泛用于训练和验证基于随机对比学习(RCL)算法的模型。该数据集包含7500张乳腺组织病理图像,分为良性和恶性两类。通过PrismRCL应用或API,研究人员可以高效地加载和处理这些图像,从而实现对乳腺癌病理图像的自动分类和诊断。
解决学术问题
该数据集解决了乳腺癌病理图像分类中的关键学术问题,即如何通过计算机视觉技术准确区分良性和恶性乳腺组织。其意义在于提升了乳腺癌早期诊断的准确性和效率,为医学影像分析领域提供了宝贵的研究资源。通过使用该数据集,研究人员能够开发出更精确的分类模型,从而推动乳腺癌诊断技术的进步。
衍生相关工作
基于LuminaAI/RCL-Breast-Cancer-Biopsy-7500数据集,研究者们开发了多种乳腺癌病理图像分类模型,如深度卷积神经网络(CNN)和迁移学习方法。这些模型不仅在学术界引起了广泛关注,还在实际临床应用中取得了显著成效。此外,该数据集还促进了相关领域的研究,如图像增强技术和病理图像的自动化标注,进一步推动了医学影像分析技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据,包括有功功率(AP,kW)、历史温度(T,℃)、相对湿度(RH,%)、全球水平辐照度(GHI,Wh/m²)和漫射水平辐照度(DHI,Wh/m²)。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录