owkin/camelyon16-features
收藏Hugging Face2023-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/owkin/camelyon16-features
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: features
sequence:
sequence: float32
- name: label
dtype: int64
splits:
- name: Phikon_test
num_bytes: 401342744
num_examples: 130
- name: Phikon_train
num_bytes: 808932620
num_examples: 269
download_size: 1210840794
dataset_size: 1210275364
configs:
- config_name: default
data_files:
- split: Phikon_test
path: data/Phikon_test-*
- split: Phikon_train
path: data/Phikon_train-*
license: other
task_categories:
- feature-extraction
- image-classification
language:
- en
tags:
- biology
- medical
- cancer
pretty_name: Camelyon16 Features
size_categories:
- n<1K
---
# Dataset Card for Camelyon16-features
### Dataset Summary
The Camelyon16 dataset is a very popular benchmark dataset used in the field of cancer classification.

The dataset we've uploaded here is the result of features extracted from the Camelyon16 dataset using the Phikon model, which is also openly available on Hugging Face.
## Dataset Creation
### Initial Data Collection and Normalization
The initial collection of the Camelyon16 Whole Slide Images is credited to:
Radboud University Medical Center (Nijmegen, the Netherlands),
University Medical Center Utrecht (Utrecht, the Netherlands).
### Licensing Information
This dataset is under [Owkin non-commercial license](https://github.com/owkin/HistoSSLscaling/blob/main/LICENSE.txt).
### Citation Information
Owkin claims no ownership of this dataset. This is simply an extraction of features from the original dataset.
[Link to original dataset](https://camelyon16.grand-challenge.org/) [Link to original paper](https://jamanetwork.com/journals/jama/fullarticle/2665774)
---
dataset_info: 数据集信息
特征:
- 名称:features(特征),类型为嵌套序列,其元素为单精度浮点数(float32)
- 名称:label(标签),数据类型为64位整数(int64)
数据划分:
- 名称:Phikon_test,占用字节数:401342744,样本数量:130
- 名称:Phikon_train,占用字节数:808932620,样本数量:269
下载总大小:1210840794 字节
数据集总大小:1210275364 字节
配置项:
- 配置名称:default(默认配置),数据文件路径:
- 数据划分:Phikon_test,路径:data/Phikon_test-*
- 数据划分:Phikon_train,路径:data/Phikon_train-*
许可证类型:other(其他)
任务类别:
- 特征提取(feature-extraction)
- 图像分类(image-classification)
语言:
- en(英语)
标注标签:
- 生物学(biology)
- 医学(medical)
- 癌症(cancer)
展示名称:Camelyon16 Features(Camelyon16特征集)
样本规模类别:n<1K(样本数少于1000)
---
# Camelyon16特征集数据集卡片
### 数据集摘要
Camelyon16数据集是癌症分类领域极具影响力的基准测试数据集。

本次上传的数据集,系基于Phikon模型从原始Camelyon16数据集中提取得到的特征集合,该模型同样可在Hugging Face平台公开获取。
## 数据集构建
### 初始数据采集与标准化
Camelyon16全视野病理切片图像的初始采集工作由以下机构完成:
荷兰内梅亨拉德布德大学医学中心、荷兰乌得勒支大学医学中心。
### 许可信息
本数据集遵循[Owkin非商业许可协议](https://github.com/owkin/HistoSSLscaling/blob/main/LICENSE.txt)。
### 引用信息
Owkin对本数据集不主张任何所有权,本数据集仅为从原始数据集提取的特征集合。
[原始数据集链接](https://camelyon16.grand-challenge.org/) [原始论文链接](https://jamanetwork.com/journals/jama/fullarticle/2665774)
提供机构:
owkin
原始信息汇总
数据集卡片 Camelyon16-features
数据集概述
Camelyon16 数据集是一个在癌症分类领域广泛使用的基准数据集。我们上传的数据集是从 Camelyon16 数据集中提取的特征,使用 Phikon 模型进行处理。
数据集详情
特征
- features: 序列类型,数据类型为 float32
- label: 数据类型为 int64
分割
- Phikon_test: 字节数为 401342744,样本数为 130
- Phikon_train: 字节数为 808932620,样本数为 269
大小
- 下载大小: 1210840794 字节
- 数据集大小: 1210275364 字节
配置
- default:
- Phikon_test: 路径为
data/Phikon_test-* - Phikon_train: 路径为
data/Phikon_train-*
- Phikon_test: 路径为
许可
- 其他
任务类别
- 特征提取
- 图像分类
语言
- 英语
标签
- 生物学
- 医学
- 癌症
名称
- Camelyon16 Features
大小类别
- n<1K
搜集汇总
数据集介绍

构建方式
在数字病理学领域,Camelyon16数据集作为癌症分类的重要基准,其原始数据由荷兰拉德堡德大学医学中心与乌得勒支大学医学中心精心收集,包含高分辨率的全切片图像。本数据集在此基础上,通过先进的Phikon模型对原始图像进行深度特征提取,将复杂的视觉信息转化为结构化的特征序列,每个样本对应一个浮点数序列特征与相应的病理标签,构建过程严格遵循医学数据处理规范,确保了特征表达的准确性与一致性。
特点
该数据集聚焦于医学图像分析,专为特征提取与图像分类任务设计,其核心特点在于提供了经过预训练模型处理的高维特征表示,而非原始像素数据。这些特征直接捕获了病理图像中的关键生物学模式,显著降低了后续机器学习模型的计算复杂度。数据集规模适中,包含训练集与测试集,分别涵盖269和130个样本,每个样本均附带整型标签,适用于快速原型开发与模型验证,在癌症检测研究中展现出高效与实用性。
使用方法
研究人员可利用本数据集直接进行下游任务的模型训练与评估,无需复杂的图像预处理步骤。通过加载特征序列与对应标签,可迅速构建分类器,如支持向量机或神经网络,以验证特征在癌症识别中的有效性。数据集兼容常见的机器学习框架,支持特征提取与分类任务的端到端流程,为医学人工智能研究提供了便捷的基准工具,加速病理学分析的算法创新与性能比较。
背景与挑战
背景概述
在数字病理学领域,全切片图像(WSI)的自动分析对于提升癌症诊断的准确性与效率具有深远意义。Camelyon16数据集由荷兰拉德堡德大学医学中心与乌得勒支大学医学中心于2016年联合创建,旨在解决淋巴结切片中转移性乳腺癌检测的核心研究问题。该数据集作为公开基准,极大推动了深度学习在病理图像分类中的应用,促进了计算机辅助诊断系统的发展,对医学影像分析领域产生了广泛而持久的影响力。
当前挑战
Camelyon16数据集所针对的领域挑战在于全切片图像的高分辨率与巨大尺寸,这要求算法能够精准识别微小的转移病灶,同时处理海量像素数据以区分恶性与良性组织。在构建过程中,数据收集面临标注一致性难题,病理专家的注释需在复杂组织形态中达成共识;此外,特征提取阶段,如使用Phikon模型生成本特征数据集,需克服计算资源密集与特征表示可解释性等挑战,确保提取的特征能有效支撑下游分类任务。
常用场景
经典使用场景
在数字病理学领域,Camelyon16-features数据集作为乳腺癌淋巴结转移检测的基准工具,其经典应用场景集中于训练和评估深度学习模型。通过Phikon模型提取的高维特征,研究者能够构建高效的分类器,精准识别全切片图像中的肿瘤区域。这一过程不仅加速了病理分析的自动化进程,还为模型在医学影像中的泛化能力提供了验证平台,推动了人工智能辅助诊断技术的演进。
衍生相关工作
基于Camelyon16-features,众多经典研究应运而生,特别是在自监督学习与领域自适应方向。例如,Phikon模型本身作为病理学专用视觉Transformer,展示了预训练特征在医学任务中的迁移潜力。后续工作进一步探索了特征融合、多实例学习等策略,优化了肿瘤检测的精度与鲁棒性。这些成果不仅丰富了计算病理学的方法体系,也为开源医学人工智能社区提供了可复现的基准范例。
数据集最近研究
最新研究方向
在数字病理学领域,Camelyon16数据集作为癌症分类的基准,其基于Phikon模型提取的特征版本正推动着计算病理学的前沿探索。当前研究聚焦于利用这些预提取特征,结合自监督学习与迁移学习技术,优化淋巴结转移的自动检测算法,以提升诊断的准确性与效率。随着人工智能在医疗影像分析中的深入应用,该特征数据集促进了多中心协作研究,支持模型泛化能力的验证,并助力于开发轻量级、可解释的深度学习框架,对推动精准医疗和降低病理学家工作负荷具有显著意义。
以上内容由遇见数据集搜集并总结生成



