five

wltjr1007/Camelyon17-WILDS

收藏
Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wltjr1007/Camelyon17-WILDS
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于图像分类任务的医学影像数据集,主要包含肿瘤和非肿瘤的标签。数据来自不同的中心,这些中心被分为训练、验证和测试集。数据集的特征包括图像、标签、中心、图像ID、患者、节点、坐标和切片等信息。数据集的大小在10K到100K之间,具体分为训练集、验证集和测试集,分别包含302436、68464和85054个样本。

This is a medical imaging dataset for image classification tasks, which primarily contains labels for tumor and non-tumor cases. The data is sourced from multiple medical centers, and the entire dataset is partitioned into training, validation, and test subsets. The features of the dataset include information such as images, labels, medical centers, image IDs, patient details, nodes, coordinates, and slices. The total size of the dataset ranges between 10,000 and 100,000 samples, with the training, validation, and test sets containing 302,436, 68,464, and 85,054 samples respectively.
提供机构:
wltjr1007
原始信息汇总

数据集概述

许可证

  • 许可证类型:其他

数据规模

  • 数据量范围:10K<n<100K

任务类别

  • 图像分类

标签

  • 医学

数据集信息

特征

  • image: 图像数据
  • label: 标签数据
    • 类别标签名称:
      • 0: non-tumor(非肿瘤)
      • 1: tumor(肿瘤)
  • center: 中心数据
    • 类别标签名称:
      • 0: train-center1(训练中心1)
      • 1: validation-center(验证中心)
      • 2: test-center(测试中心)
      • 3: train-center2(训练中心2)
      • 4: train-center3(训练中心3)
  • image_id: 图像ID
  • patient: 患者信息
  • node: 节点信息
  • x_coord: X坐标
  • y_coord: Y坐标
  • slide: 幻灯片信息

数据分割

  • train: 训练集
    • 字节数:6542363602.872
    • 样本数:302436
  • validation: 验证集
    • 字节数:1484626619.112
    • 样本数:68464
  • test: 测试集
    • 字节数:1917141570.748
    • 样本数:85054

数据大小

  • 下载大小:10669335733
  • 数据集大小:9944131792.731998

配置

  • default: 默认配置
    • 数据文件路径:
      • 训练集:data/train-*
      • 验证集:data/validation-*
      • 测试集:data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
wltjr1007/Camelyon17-WILDS数据集的构建,是在医学图像分类领域中,针对肿瘤组织与非肿瘤组织的区分而进行的。数据集的构建基于多中心采集的医学图像,涵盖了训练、验证及测试三个子集,其中图像经过预处理,包括标准化和标签映射等步骤,确保了数据的一致性和可用性。
特点
该数据集的特点在于,它不仅包含了图像数据及其对应的标签,还提供了图像的中心位置、唯一标识符、患者信息、节点信息以及坐标信息等元数据。这些元数据的加入,为图像分类任务提供了更为丰富的上下文信息,有助于模型的深度学习。此外,数据集特意设计了源域、验证域和目标域的划分,为研究域自适应问题提供了理想的实验环境。
使用方法
在使用wltjr1007/Camelyon17-WILDS数据集时,用户可根据数据集提供的默认配置直接加载训练、验证和测试数据。数据集以图像和标签为主要特征,辅以详细的患者和图像元数据,便于用户开展图像分类和域自适应等研究。用户需要遵循数据使用的相关协议和规定,确保研究的合规性。
背景与挑战
背景概述
Camelyon17-WILDS数据集,诞生于医学影像分析领域,由斯坦福大学等机构的研究人员倾力打造。该数据集的核心研究问题是肿瘤组织的识别与分类,旨在推动医学图像分类技术的发展。自推出以来,它以其独特的图像数据及标签系统,对医疗图像处理领域产生了深远影响,成为了该领域研究的一个重要基准。其创建时间为2017年,主要研究人员来自斯坦福大学,该数据集的推出为医学图像的自动识别与诊断提供了新视角。
当前挑战
在Camelyon17-WILDS数据集的构建与应用过程中,研究人员面临着诸多挑战。首先,领域问题方面的挑战包括如何在异质数据中准确识别肿瘤组织,特别是在数据来源多样性导致的分布偏移情况下。其次,构建过程中的挑战主要体现在数据集的规模、数据质量控制和多中心数据的一致性整合等方面。这些挑战要求研究者在数据标注、模型泛化能力以及数据处理技术上做出创新和优化。
常用场景
经典使用场景
在医学图像分类的领域中,wltjr1007/Camelyon17-WILDS数据集被广泛用于肿瘤与非肿瘤组织的辨识。其包含了经过精细标注的医学图像,为研究者提供了一个标准的实验平台,以便于开发和评估图像识别模型的性能。
实际应用
在实际应用中,基于该数据集开发的模型能够辅助医生在病理学检查中更快地识别出肿瘤组织,降低误诊率,对于提高医疗服务的质量和效率具有重要意义。
衍生相关工作
该数据集的发布催生了众多关于医学图像分析和异常检测的研究工作,包括但不限于深度学习模型的设计、跨域学习策略的研究以及域自适应方法的探索,极大地推动了医学图像处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作