five

1aurent/Kather-texture-2016|结直肠癌数据集|图像分类数据集

收藏
hugging_face2024-05-25 更新2024-03-04 收录
结直肠癌
图像分类
下载链接:
https://hf-mirror.com/datasets/1aurent/Kather-texture-2016
下载链接
链接失效反馈
资源简介:
该数据集代表了人类结直肠癌组织学图像中的纹理集合。它包含5000张150x150像素的组织学图像(74x74微米),每张图像属于八个组织类别之一。所有图像均为RGB格式,每像素0.495微米,使用Aperio ScanScope(Aperio/Leica biosystems)数字化,放大倍数为20x。组织学样本为来自病理档案的福尔马林固定石蜡包埋的人类结直肠腺癌(原发肿瘤)的完全匿名图像。所有实验均获得了伦理委员会的批准,并且所有样本均为匿名处理。
提供机构:
1aurent
原始信息汇总

结直肠癌组织学纹理数据集

数据集描述

  • 许可证: cc-by-4.0
  • 大小类别: 1K<n<10K
  • 任务类别: 图像分类
  • 标签:
    • 生物学
    • 结直肠癌
    • 组织病理学
    • 组织学
    • 数字病理学

配置

  • 默认配置:
    • 数据文件:
      • 分割: 训练
      • 路径: data/train-*

数据集信息

  • 特征:

    • 名称: 图像
      • 数据类型: 图像
    • 名称: 标签
      • 数据类型:
        • 类别标签:
          • 名称:
            • 0: ADIPOSE
            • 1: COMPLEX
            • 2: DEBRIS
            • 3: EMPTY
            • 4: LYMPHO
            • 5: MUCOSA
            • 6: STROMA
            • 7: TUMOR
  • 分割:

    • 名称: 训练
      • 字节数: 329215083
      • 样本数: 5000
  • 下载大小: 293441024

  • 数据集大小: 329215083

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由5000张150×150像素的结直肠癌组织学图像组成,每张图像均属于八种组织类别之一。图像通过Aperio ScanScope(Aperio/Leica生物系统)以20倍放大倍数数字化,分辨率为0.495微米每像素。所有图像均为RGB格式,来源于德国海德堡大学曼海姆医学中心病理研究所的福尔马林固定石蜡包埋的人类结直肠腺癌(原发性肿瘤)样本。数据集的构建严格遵循伦理审批,确保样本的匿名性和实验的合规性。
特点
该数据集的主要特点在于其高分辨率的组织学图像和明确的分类标签,涵盖了八种不同的组织类别,包括脂肪组织、复杂结构、碎片、空洞、淋巴组织、黏膜、基质和肿瘤。图像的数字化过程确保了高质量的色彩和细节保留,适合用于图像分类和组织学纹理分析。此外,数据集的伦理审批和匿名化处理进一步增强了其科学性和可靠性。
使用方法
该数据集适用于图像分类任务,特别是结直肠癌组织学的纹理分析。用户可以通过加载数据集中的图像和标签进行模型训练和验证。数据集提供了训练集,包含5000个样本,每个样本均附有明确的类别标签。使用时,建议引用相关文献以确保数据的合法使用,并遵循数据集的许可协议(CC BY 4.0)。
背景与挑战
背景概述
1aurent/Kather-texture-2016数据集是由德国海德堡大学曼海姆医学中心病理研究所的Jakob Nikolas Kather博士及其团队于2016年创建的,专注于结直肠癌组织学图像的纹理分析。该数据集包含了5000张150x150像素的结直肠癌组织学图像,每张图像均属于八种组织类别之一。这些图像通过Aperio ScanScope数字化设备以20倍放大倍率采集,像素分辨率为0.495微米。数据集的创建旨在推动结直肠癌的数字病理学研究,特别是通过多类别纹理分析来提高癌症诊断的准确性。该数据集的发布为相关领域的研究提供了宝贵的资源,推动了计算机辅助诊断技术的发展。
当前挑战
1aurent/Kather-texture-2016数据集在构建过程中面临了多个挑战。首先,图像的采集和数字化过程需要高精度的设备和技术,以确保图像质量符合病理学分析的要求。其次,组织学图像的多样性和复杂性使得分类任务变得极具挑战性,尤其是在区分细微的纹理差异时。此外,数据集的匿名化和伦理审查过程也增加了数据处理的复杂性,确保了研究的合规性和伦理性。在应用层面,如何利用这些图像进行有效的机器学习模型训练,以提高结直肠癌的诊断准确性,是当前研究面临的主要挑战之一。
常用场景
经典使用场景
在数字病理学领域,1aurent/Kather-texture-2016数据集被广泛用于结直肠癌组织学图像的纹理分析。该数据集包含5000张150x150像素的组织学图像,涵盖八种不同的组织类别,如脂肪组织、复杂结构、碎片、空洞、淋巴组织、黏膜、基质和肿瘤。这些图像通过高分辨率扫描技术获取,为研究人员提供了丰富的纹理特征,适用于图像分类、特征提取和模式识别等任务。
实际应用
在实际应用中,1aurent/Kather-texture-2016数据集为医疗影像分析系统提供了宝贵的训练数据。这些系统可以应用于医院和病理实验室,帮助病理学家快速、准确地识别和分类结直肠癌组织样本。此外,该数据集还支持开发远程病理诊断工具,使得偏远地区的患者也能获得高质量的医疗服务,推动了数字病理学在临床实践中的广泛应用。
衍生相关工作
基于1aurent/Kather-texture-2016数据集,许多研究工作得以展开,包括但不限于深度学习模型的训练与优化、多类别纹理分析方法的开发以及跨领域应用的探索。例如,有研究利用该数据集训练卷积神经网络(CNN),以提高组织分类的准确性;还有研究将其应用于计算机辅助诊断系统,显著提升了病理学图像分析的自动化水平。这些衍生工作不仅丰富了数字病理学的研究内容,也为相关领域的技术进步提供了重要支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录