owkin/nct-crc-he

Name: owkin/nct-crc-he
Creator: owkin
Published: 2023-10-26 09:42:47
License: 暂无描述

Hugging Face2023-10-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/owkin/nct-crc-he

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: label dtype: class_label: names: '0': ADI '1': BACK '2': DEB '3': LYM '4': MUC '5': MUS '6': NORM '7': STR '8': TUM splits: - name: nct_crc_he_100 num_bytes: 15058006 num_examples: 99 - name: nct_crc_he_1k num_bytes: 151950686 num_examples: 999 - name: crc_val_he_7k num_bytes: 1092855241.74 num_examples: 7180 download_size: 1095677324 dataset_size: 1259863933.74 configs: - config_name: default data_files: - split: nct_crc_he_100 path: data/nct_crc_he_100-* - split: nct_crc_he_1k path: data/nct_crc_he_1k-* - split: crc_val_he_7k path: data/crc_val_he_7k-* license: cc-by-sa-3.0 task_categories: - image-classification language: - en tags: - biology - medical - cancer - colorectal cancer pretty_name: NCT_CRC size_categories: - 10K<n<100K --- # Dataset Card for NCT-CRC-HE ### Dataset Summary The NCT-CRC-HE dataset consists of images of human tissue slides, some of which contain cancer. ### Data Splits The dataset contains tissues from different parts of the body. Examples from each of the 9 classes can be seen below ![Tissue examples](https://www.researchgate.net/profile/Jakob-Kather/publication/330609763/figure/fig1/AS:718794859237378@1548385457599/Example-images-for-each-of-the-nine-tissue-classes-represented-in-the-NCT-CRC-HE-100K.png) ### Initial Data Collection and Normalization NCT biobank (National Center for Tumor Diseases) and the UMM pathology archive (University Medical Center Mannheim). Images were normalized using Macenko normalization. ### Licensing Information CC-BY-SA ### Citation Information Owkin claims no ownership of the dataset. This is simply an upload of the original dataset onto HF. [Link to original paper](https://zenodo.org/records/1214456)

数据集信息：特征： - 名称：image，数据类型：图像 - 名称：label，数据类型：类别标签：名称： '0': ADI '1': BACK '2': DEB '3': LYM '4': MUC '5': MUS '6': NORM '7': STR '8': TUM 数据集拆分： - 名称：nct_crc_he_100，占用字节数：15058006，样本数量：99 - 名称：nct_crc_he_1k，占用字节数：151950686，样本数量：999 - 名称：crc_val_he_7k，占用字节数：1092855241.74，样本数量：7180 下载总大小：1095677324，数据集总存储大小：1259863933.74 数据集配置： - 配置名称：default，数据文件： - 拆分集：nct_crc_he_100，路径：data/nct_crc_he_100-* - 拆分集：nct_crc_he_1k，路径：data/nct_crc_he_1k-* - 拆分集：crc_val_he_7k，路径：data/crc_val_he_7k-* 许可协议：cc-by-sa-3.0（知识共享署名-相同方式共享3.0协议）任务类别：图像分类语言：英语标签：生物学、医学、癌症、结直肠癌显示名称：NCT_CRC 样本量范围：10000 < n < 100000 # NCT-CRC-HE 数据集卡片 ## 数据集概览 NCT-CRC-HE 数据集由人体组织切片图像构成，其中部分图像包含癌变组织。 ## 数据集拆分说明本数据集包含来自人体不同部位的组织样本。9个类别各样本示例如下方所示： ![组织示例图片](https://www.researchgate.net/profile/Jakob-Kather/publication/330609763/figure/fig1/AS:718794859237378@1548385457599/Example-images-for-each-of-the-nine-tissue-classes-represented-in-the-NCT-CRC-HE-100K.png) ## 初始数据收集与标准化流程数据来源于NCT生物样本库（国家肿瘤疾病中心，National Center for Tumor Diseases）与UMM病理档案库（曼海姆大学医学中心病理档案，University Medical Center Mannheim）。所有图像均采用Macenko归一化方法进行标准化处理。 ## 许可信息知识共享署名-相同方式共享（CC-BY-SA-3.0） ## 引用信息 Owkin对本数据集不主张任何所有权，本次上传仅为将原始数据集迁移至Hugging Face平台。 [原始论文链接](https://zenodo.org/records/1214456)

提供机构：

owkin

原始信息汇总

数据集卡片 for NCT-CRC-HE

数据集概述

NCT-CRC-HE数据集包含人类组织切片的图像，其中一些包含癌症。

数据集信息

特征

image: 图像数据
label: 类别标签
- 类别名称:
  - 0: ADI
  - 1: BACK
  - 2: DEB
  - 3: LYM
  - 4: MUC
  - 5: MUS
  - 6: NORM
  - 7: STR
  - 8: TUM

数据分割

nct_crc_he_100:
- 字节数: 15058006
- 样本数: 99
nct_crc_he_1k:
- 字节数: 151950686
- 样本数: 999
crc_val_he_7k:
- 字节数: 1092855241.74
- 样本数: 7180

下载和数据集大小

下载大小: 1095677324
数据集大小: 1259863933.74

配置

default:
- 数据文件路径:
  - nct_crc_he_100: data/nct_crc_he_100-*
  - nct_crc_he_1k: data/nct_crc_he_1k-*
  - crc_val_he_7k: data/crc_val_he_7k-*

许可证

CC-BY-SA-3.0

任务类别

图像分类

语言

英语

数据集名称

NCT_CRC

数据集大小类别

10K<n<100K

搜集汇总

数据集介绍

构建方式

在数字病理学领域，高质量的组织切片图像数据集对于癌症诊断模型的开发至关重要。NCT-CRC-HE数据集源自德国国家肿瘤疾病中心（NCT）生物样本库以及曼海姆大学医学中心（UMM）的病理档案，通过精心筛选人类结直肠癌组织切片构建而成。图像采集后，采用Macenko标准化方法进行色彩归一化处理，以消除染色差异带来的技术偏差，确保视觉特征的一致性。数据集最终划分为三个子集，分别包含100、1000及7180张图像，涵盖了九类不同的组织形态，为结直肠癌的显微图像分析提供了结构化的基准资源。

特点

该数据集的核心特征在于其专注于结直肠癌组织病理学图像，涵盖了九种不同的组织类别，包括脂肪组织（ADI）、背景（BACK）、碎片（DEB）、淋巴细胞（LYM）、黏液（MUC）、肌肉（MUS）、正常结肠黏膜（NORM）、间质（STR）以及肿瘤（TUM）。图像均经过标准化处理，具有一致的色彩与分辨率，减少了预处理负担。数据规模适中，总计约8289张图像，分为不同大小的子集，便于模型训练、验证与测试的灵活配置，为机器学习算法在医学图像分类任务中的性能评估提供了可靠的基础。

使用方法

使用该数据集时，研究人员可借助HuggingFace平台直接加载预配置的分割，例如nct_crc_he_100、nct_crc_he_1k和crc_val_he_7k，分别适用于小规模实验、中等规模训练以及大规模验证。图像以标准格式存储，标签对应九种类别，可直接用于图像分类模型的开发与评估。在应用过程中，建议遵循CC-BY-SA许可协议，并引用原始研究文献，以确保学术合规性。该数据集适用于结直肠癌的自动诊断、组织形态学分析以及深度学习模型的基准测试，推动数字病理学的技术进步。

背景与挑战

背景概述

在数字病理学领域，结直肠癌的组织学分析对于精准诊断和治疗策略的制定至关重要。NCT-CRC-HE数据集由美国国家肿瘤疾病中心（NCT）和曼海姆大学医学中心（UMM）病理档案库联合创建，于2018年首次公开，旨在为结直肠癌组织图像的自动分类提供标准化基准。该数据集涵盖了九类组织形态，包括腺体、背景、碎片、淋巴细胞、粘液、肌肉、正常组织、基质和肿瘤，通过Macenko归一化技术对图像进行标准化处理，显著提升了组织学图像分析的可靠性与可重复性，推动了人工智能在癌症病理学中的应用。

当前挑战

该数据集致力于解决结直肠癌组织图像自动分类的挑战，其核心在于区分高度相似的组织形态，如肿瘤与正常腺体结构的细微差异，这对模型的判别能力提出了极高要求。在构建过程中，研究人员面临组织样本采集的异质性挑战，包括染色差异和切片质量不一，需通过复杂的归一化技术确保数据一致性。此外，数据标注依赖于病理学家的专业判断，存在主观性风险，且样本类别分布可能不均衡，增加了模型训练的难度。

常用场景

经典使用场景

在数字病理学领域，组织切片图像的自动分类是提升诊断效率的关键。NCT-CRC-HE数据集以其高质量的结直肠癌组织染色图像，为研究者提供了标准化的基准数据。该数据集最经典的使用场景在于训练和评估深度学习模型，特别是卷积神经网络，以识别九种不同的组织类型，包括腺体、黏液和肿瘤区域。通过精确的图像标注，研究人员能够系统性地探索模型在复杂组织形态下的分类性能，推动病理图像分析技术的进步。

实际应用

在实际医疗场景中，NCT-CRC-HE数据集的应用显著提升了病理诊断的自动化水平。基于该数据集训练的模型可辅助病理医生快速识别结直肠癌组织中的异常区域，减少人工阅片的时间与主观误差。这些技术已逐步集成到智能病理分析平台中，用于大规模筛查和精准医疗，帮助医疗机构实现更高效、一致的诊断流程，从而改善患者护理质量并优化医疗资源分配。

衍生相关工作

围绕NCT-CRC-HE数据集，衍生了一系列经典研究工作，主要集中在深度学习模型的优化与迁移学习策略上。例如，多项研究利用该数据集预训练神经网络，再迁移至其他癌症类型的组织分类任务，证明了其跨域泛化能力。此外，一些工作结合生成对抗网络进行数据增强，以解决医学图像样本不平衡问题。这些成果不仅丰富了计算病理学的理论体系，也为后续更广泛的生物医学图像分析奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集