CUTS

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/ChenLiu1996/CUTS

下载链接

链接失效反馈

官方服务：

资源简介：

CUTS数据集是一个用于多尺度无监督医学图像分割的深度学习和拓扑框架。它包含berkeley_natural_images、brain_tumor、brain_ventricles和retina四个子数据集，这些数据集在作者接手时已经被预处理。数据集规模相对较小，如果需要大规模样本，可以考虑使用如BraTS挑战等更大的数据集。

The CUTS dataset is a deep learning and topology framework designed for multi-scale unsupervised medical image segmentation. It includes four subdatasets: berkeley_natural_images, brain_tumor, brain_ventricles and retina, all of which were preprocessed before the authors acquired them. The overall scale of the CUTS dataset is relatively small; for researchers in need of large-scale samples, larger datasets such as the BraTS Challenge can be considered as alternatives.

创建时间：

2025-05-19

原始信息汇总

CUTS数据集概述

基本信息

许可证: MIT
任务类别: 图像分割
语言: 英文
标签: 医学
数据规模: 100M < n < 1B

数据目录

berkeley_natural_images
brain_tumor
brain_ventricles
retina

数据获取说明

berkeley_natural_images、brain_tumor 和 retina 数据集以 zip 格式提供。
brain_ventricles 数据集因大小限制，需通过 Google Drive 获取。

注意事项

数据集样本量较小。
如需更大样本量，建议参考如 BraTS challenge 等更大规模数据集。

搜集汇总

数据集介绍

构建方式

在医学图像分析领域，CUTS数据集通过整合多源异构数据构建而成，其核心数据来源于实验室传承的预处理医学影像集合。数据集涵盖伯克利自然图像、脑肿瘤、脑室和视网膜四个子集，原始数据经过标准化预处理流程，包括图像归一化和质量筛选。考虑到数据规模限制，脑室子集因体积过大采用云端存储方案，其余子集以压缩包形式提供，确保了数据的可获取性和完整性。

特点

CUTS数据集以其多粒度无监督分割特性在医学影像领域独树一帜，包含跨模态的脑部病变、视网膜血管等关键解剖结构标注。数据集虽样本量有限，但精选的影像数据具有高分辨率和专业标注优势，特别适合探索拓扑结构和深度学习融合的算法研究。不同子集间的领域差异为模型泛化能力评估提供了天然测试环境，弥补了传统单一模态数据集的局限性。

使用方法

该数据集主要服务于无监督医学图像分割算法的开发与验证，研究者可通过解压提供的zip文件或下载云端数据获取原始DICOM/NIfTI格式影像。建议配合配套论文提出的拓扑框架使用，先对berkeley_natural_images子集进行预训练，再迁移至脑肿瘤或视网膜等专业医学影像。由于样本规模限制，推荐采用数据增强策略或与BraTS等大型数据集联合使用以提升模型鲁棒性。

背景与挑战

背景概述

CUTS数据集由Chen Liu等研究人员于2024年提出，旨在解决医学图像分割领域的多粒度无监督学习问题。该数据集由耶鲁大学和哈佛医学院等机构联合开发，作为MICCAI 2024会议论文的核心组成部分，其创新性在于融合深度学习与拓扑学方法，突破传统监督式分割的局限性。数据集涵盖脑肿瘤、脑室、视网膜及伯克利自然图像四类医学影像，为研究跨模态特征提取和自适应分割提供了重要基准。

当前挑战

CUTS数据集面临双重挑战：在领域问题层面，无监督多粒度分割需克服医学图像中结构模糊、尺度差异大的特性，现有方法对拓扑约束的建模仍不完善；在构建过程中，原始数据来自不同机构的异构采集协议，预处理阶段需协调空间分辨率与对比度的标准化，且脑室子集因体积过大面临存储与分发的技术难题。尽管数据集规模有限，但其细粒度标注需求与计算复杂度之间的平衡仍是持续优化的方向。

常用场景

经典使用场景

在医学影像分析领域，CUTS数据集为无监督多粒度图像分割任务提供了重要基准。该数据集整合了脑肿瘤、脑室和视网膜等多样化医学影像，特别适用于验证深度学习模型在缺乏标注数据情况下的拓扑特征提取能力。研究人员常利用其多模态特性，开发能够同时处理不同解剖结构的自适应分割算法。

衍生相关工作

基于CUTS数据集的开源特性，已衍生出多个医学图像分析的重要研究。其拓扑特征提取框架被扩展应用于3D医学影像分割，部分工作进一步结合对比学习提升小样本性能。数据集的多粒度特性也启发了跨尺度特征融合的新方法，相关成果发表在MICCAI等顶级会议。

数据集最近研究