1aurent/BACH
收藏Hugging Face2024-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/1aurent/BACH
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由苏木精和伊红(H&E)染色的乳腺组织显微图像组成。显微图像根据每张图像中主要的癌症类型被标记为正常、良性、原位癌或浸润性癌。标注由两位医学专家完成,存在分歧的图像被排除。图像具有RGB颜色模型,尺寸为2048 x 1536像素,像素比例为0.42 µm x 0.42 µm,内存空间约为10-20 MB,标签类型为图像级别。数据集分为训练集和测试集,分别包含400和100个样本。
This dataset consists of hematoxylin and eosin (H&E) stained microscopic images of breast tissue. The microscopic images are labeled as normal, benign, carcinoma in situ, or invasive carcinoma based on the predominant cancer type in each image. Annotations were completed by two medical experts, and images with conflicting annotations were excluded. The images adopt the RGB color model, with a resolution of 2048 × 1536 pixels, a pixel spacing of 0.42 µm × 0.42 µm, an approximate file size of 10–20 MB, and image-level labels. The dataset is split into training and test sets, which contain 400 and 100 samples respectively.
提供机构:
1aurent
原始信息汇总
BreAst Cancer Histology (BACH) Dataset
数据集描述
- 许可证: cc-by-nc-nd-4.0
- 大小类别: n<1K
- 任务类别: image-classification
- 标签:
- biology
- Histopathology
- Histology
- Digital Pathology
- Breast Cancer
配置
- 默认配置:
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
- 数据文件:
数据集信息
-
特征:
- 图像: dtype: image
- 标签: dtype: class_label
- 类别名称:
- 0: Benign
- 1: InSitu
- 2: Invasive
- 3: Normal
- 4: Unknown
- 类别名称:
-
分割:
- 训练集:
- 字节数: 7370596186
- 样本数: 400
- 测试集:
- 字节数: 1887476013
- 样本数: 100
- 训练集:
-
下载大小: 7727410763
-
数据集大小: 9258072199
数据集详细描述
- 图像规格:
- 颜色模型: R(ed)G(reen)B(lue)
- 尺寸: 2048 x 1536 像素
- 像素比例: 0.42 µm x 0.42 µm
- 内存空间: 10-20 MB (大约)
- 标签类型: 图像级别
引用
bibtex @dataset{polonia_2020_3632035, author = {Polónia, António and Eloy, Catarina and Aguiar, Paulo}, title = {{BACH Dataset : Grand Challenge on Breast Cancer Histology images}}, month = jan, year = 2020, publisher = {Zenodo} }
搜集汇总
数据集介绍

构建方式
1aurent/BACH数据集的构建基于对乳腺组织病理学显微图像的采集与标注。该数据集包含400例训练图像和100例测试图像,所有图像均经过两位医学专家的精确标注,对于标注存在分歧的图像则予以剔除,确保了数据集的质量与准确性。图像均为 Hematoxylin 和 eosin (H&E) 染色的乳腺组织病理学显微图像,具备明确的分类标签,包括正常、良性、原位癌和浸润性癌。
特点
该数据集的特点在于其专业性与细粒度的图像分类。图像按照10-20 MB的内存空间存储,拥有2048 x 1536像素的分辨率和0.42 µm x 0.42 µm的像素尺度,符合高清晰度医学图像标准。此外,数据集遵循cc-by-nc-nd-4.0的开放许可协议,允许非商业用途的学术分享与使用。标签类型为图像级别的分类标签,包括良性、原位、浸润性、正常和未知五类。
使用方法
用户可以通过HuggingFace的库直接加载数据集,其中包含了训练集和测试集的图像与标签。数据集的加载可以通过指定配置文件default中的数据路径实现,图像和标签的数据类型分别为'image'和'class_label'。用户需遵循数据集的使用条款,在学术研究中引用数据集时,应参照提供的bibTeX格式进行正确的引用。
背景与挑战
背景概述
在数字病理学领域,为了提高乳腺癌的检测与诊断准确性,研究人员António Polónia、Catarina Eloy与Paulo Aguiar共同创建了BACH数据集。该数据集于2019年5月31日发布,包含经苏木精-伊红染色的乳腺组织学显微镜图像,旨在为图像分类任务提供标准化的数据资源。数据集涵盖了正常、良性、原位癌及浸润性癌四种类型,标注工作由两位医学专家完成,保证了数据的准确性和可靠性。BACH数据集对促进乳腺癌诊断相关算法研究具有显著影响力。
当前挑战
BACH数据集面临的挑战主要体现在两个方面:一是领域问题上的挑战,即如何通过图像分类精确地区分四种不同的乳腺组织类型;二是构建过程中的挑战,包括图像的高标注成本、数据标注一致性保证,以及数据隐私保护等问题。此外,数据集规模相对较小,可能限制模型的泛化能力,对算法的鲁棒性提出了更高的要求。
常用场景
经典使用场景
在医学图像分析的领域背景下,1aurent/BACH数据集作为一项重要的资源,其经典使用场景主要集中于乳腺癌的病理图像分类。该数据集包含经过染色的乳腺组织显微图像,标注为正常、良性、原位癌或浸润性癌等类别,为研究者提供了精确的图像标注和分类基准,是进行图像识别算法训练和评估的理想选择。
实际应用
在实际应用中,1aurent/BACH数据集的应用场景广泛,可用于辅助病理学家进行乳腺癌的筛查和诊断,通过自动化技术提高诊断的速度和准确性,进而优化医疗资源配置,提升患者服务水平。
衍生相关工作
基于1aurent/BACH数据集,研究者们衍生出了一系列相关工作,包括但不限于改进图像识别算法、提出新的特征提取方法、以及构建更为复杂的分类模型等,这些工作进一步推动了数字病理学领域的发展,为乳腺癌的早期发现和治疗提供了重要技术支持。
以上内容由遇见数据集搜集并总结生成



