five

1aurent/NCT-CRC-HE|数字病理学数据集|图像分类数据集

收藏
hugging_face2024-05-25 更新2024-03-04 收录
数字病理学
图像分类
下载链接:
https://hf-mirror.com/datasets/1aurent/NCT-CRC-HE
下载链接
链接失效反馈
资源简介:
该数据集包含100,000张人类结直肠癌和健康组织的组织学图像,分为三个子集:NCT-CRC-HE-100K、CRC-VAL-HE-7K和NCT-CRC-HE-100K-NONORM。所有图像均为224x224像素,分辨率为0.5微米/像素。NCT-CRC-HE-100K子集包含100,000张经过颜色标准化的图像,CRC-VAL-HE-7K子集包含7,180张图像,用于模型验证,NCT-CRC-HE-100K-NONORM子集包含100,000张未进行颜色标准化的图像。图像来自NCT生物库和UMM病理档案库,涵盖了9种组织类别:脂肪组织(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌症相关基质(STR)和结直肠腺癌上皮(TUM)。所有实验均符合赫尔辛基宣言、国际生物医学研究伦理指南(CIOMS)、贝尔蒙特报告和美国共同规则。
提供机构:
1aurent
原始信息汇总

数据集概述

数据集描述

  • 名称: NCT-CRC-HE-100K
  • 描述: 包含100,000张非重叠的图像块,来自人结直肠癌(CRC)和正常组织的苏木精和伊红(H&E)染色组织学图像。所有图像尺寸为224x224像素,分辨率为0.5微米每像素(MPP),并使用Macenko方法进行颜色归一化。
  • 组织类别: 脂肪组织(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌相关基质(STR)、结直肠腺癌上皮(TUM)。

数据集版本

  • CRC_VAL_HE_7K: 包含7180张图像块,来自50名结直肠腺癌患者,可作为较大数据集的验证集。
  • NCT_CRC_HE_100K: 包含100,000张图像块,来自86张H&E染色的人类癌症组织切片。
  • NCT_CRC_HE_100K_NONORM: 包含100,000张图像块,与NCT_CRC_HE_100K相同的数据源,但未进行颜色归一化。

数据集信息

  • 特征:
    • image: 图像数据类型。
    • label: 分类标签,包含9个类别(ADI, BACK, DEB, LYM, MUC, MUS, NORM, STR, TUM)。
  • 分割:
    • CRC_VAL_HE_7K: 7180个样本,大小为1093021734.96字节。
    • NCT_CRC_HE_100K: 100,000个样本,大小为15223287558.0字节。
    • NCT_CRC_HE_100K_NONORM: 100,000个样本,大小为15219740158.0字节。
  • 下载大小: 27708267639字节。
  • 数据集大小: 31536049450.96字节。

伦理声明

所有实验均遵循赫尔辛基宣言、国际人体生物医学研究伦理指南(CIOMS)、贝尔蒙特报告和美国共同规则进行。组织样本来自国家肿瘤疾病中心(NCT,海德堡,德国)的组织库,并获得了海德堡大学伦理委员会的批准。

引用

bibtex @dataset{kather_jakob_nikolas_2018_1214456, author = {Kather, Jakob Nikolas and Halama, Niels and Marx, Alexander}, title = {{100,000 histological images of human colorectal cancer and healthy tissue}}, month = apr, year = 2018, publisher = {Zenodo}, version = {v0.1}, doi = {10.5281/zenodo.1214456}, url = {https://doi.org/10.5281/zenodo.1214456} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在数字病理学领域,'1aurent/NCT-CRC-HE'数据集的构建采用了从86个福尔马林固定石蜡包埋(FFPE)的人癌组织切片中手动提取100,000个非重叠图像块的方法。这些切片来源于德国海德堡国家肿瘤疾病中心(NCT)的生物银行和曼海姆大学医学中心的病理学档案。图像块经过Macenko的颜色归一化处理,以确保染色的一致性,并涵盖CRC原发肿瘤和肝脏转移瘤的样本,以及通过胃切除标本增加正常组织类别的变异性。
特点
该数据集的特点在于其包含了9种不同组织的类别,如脂肪组织(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌相关间质(STR)和结直肠癌上皮(TUM)。数据集分为三个部分:NCT-CRC-HE-100K、CRC-VAL-HE-7K和NCT-CRC-HE-100K-NONORM,分别用于训练、验证和未归一化的训练。需要注意的是,各个类别之间的样本数量并不完全平衡,因此在模型评估时需谨慎处理。
使用方法
使用该数据集时,研究者可以访问三种不同的数据分割:NCT-CRC-HE-100K用于训练,CRC-VAL-HE-7K作为验证集,而NCT-CRC-HE-100K-NONORM提供了未归一化的图像,可用于比较颜色归一化对模型性能的影响。数据集的下载和使用需遵循Creative Commons BY 4.0许可证,且所有实验均符合国际伦理准则。用户在利用数据集时,应确保遵守相关伦理规定,并在研究成果中正确引用数据集来源。
背景与挑战
背景概述
在数字病理学领域,基于组织切片的图像分析对于疾病的诊断与预后评估至关重要。NCT-CRC-HE数据集,创建于2018年,由Kather Nikolas、Halama Niels及Marx Alexander等研究人员主导,提供了10万张人类结直肠癌及正常组织的组织学图像。该数据集源自德国海德堡国家肿瘤疾病中心及曼海姆大学医学中心病理学档案馆的福尔马林固定石蜡包埋样本。此数据集不仅丰富了结直肠癌研究领域的资源,也为计算机辅助诊断系统的开发提供了宝贵的数据基础,对相关研究领域产生了深远影响。
当前挑战
NCT-CRC-HE数据集在构建过程中遇到的挑战主要包括:首先,组织样本的多样性和质量对图像分析的准确性至关重要,而样本的选择和处理过程需要严格遵循伦理规定。其次,数据集在类别平衡方面存在一定挑战,各类别的样本数量并不完全均衡,这可能导致模型训练过程中的偏差。此外,数据集在图像选取过程中采用了随机方式,使得不同版本的数据集在图像区域上存在差异,这要求研究者在模型训练和评估时需考虑这些因素。
常用场景
经典使用场景
在医学图像分析领域,1aurent/NCT-CRC-HE数据集的典型应用场景是对人类结直肠癌和健康组织的组织学图像进行分类。该数据集包含100,000个非重叠的图像块,覆盖了九种不同的组织类别,为深度学习模型提供了丰富的训练资源,使得模型能够精确地区分正常组织与病变组织。
实际应用
在实际应用中,1aurent/NCT-CRC-HE数据集的应用范围广泛,包括但不限于辅助病理学家进行组织切片分析,以及在个性化医疗中为患者提供精准的治疗方案。该数据集的应用有助于提升医疗诊断的自动化水平,减轻医生的工作负担,提高医疗服务的质量和效率。
衍生相关工作
基于1aurent/NCT-CRC-HE数据集,学术界衍生出了一系列相关工作,包括改进的图像处理技术、更高效的分类算法以及结合临床信息的综合诊断系统。这些衍生工作进一步推动了医学图像分析领域的研究进展,对提高医疗诊断的准确性和效率产生了深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中指数据库(物业版)

物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求,提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据,助力企业科学决策。

西部数据交易中心 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

云浮市失信被执行人名单信息

该数据包含了2022年至今云浮市失信被执行人名单信息,指云浮市政务服务数据管理局对该信息的变动情况进行跟踪、采集、预测、分析、公布等活动。

开放广东 收录