VoDaSuRe

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/AugustHoeg/VoDaSuRe

下载链接

链接失效反馈

官方服务：

资源简介：

VoDaSuRe 是一个大规模体积超分辨率（VSR）数据集，旨在研究实验室 CT（Lab-CT）采集之间的域偏移。该数据集包含 16 个样本的 32 个体积扫描，每个样本在不同的成像条件下采集，支持 3D 超分辨率中的泛化性、鲁棒性和跨域学习研究。数据集分为训练和测试集，以 OME-Zarr 格式存储，包含高分辨率参考体积（HR）、未配准的低分辨率体积（LR）以及配准和强度匹配的低分辨率体积（REG）。总大小约为 489 GB（压缩后），解压后需要约 500 GB 的磁盘空间。数据集适用于体积超分辨率、域泛化和域偏移分析，以及在实际采集场景下对基于学习的超分辨率方法进行基准测试。

VoDaSuRe is a large-scale volumetric super-resolution (VSR) dataset designed to study domain shifts between laboratory CT (Lab-CT) acquisitions. The dataset contains 32 volume scans from 16 samples, each acquired under different imaging conditions, supporting research on generalization, robustness, and cross-domain learning in 3D super-resolution. The dataset is divided into training and test sets, stored in OME-Zarr format, and includes high-resolution reference volumes (HR), unregistered low-resolution volumes (LR), and registered and intensity-matched low-resolution volumes (REG). The total size is approximately 489 GB (compressed) and requires about 500 GB of disk space when uncompressed. The dataset is suitable for volumetric super-resolution, domain generalization and shift analysis, as well as benchmarking learning-based super-resolution methods in real acquisition scenarios.

创建时间：

2026-04-25

原始信息汇总

数据集概况

VoDaSuRe 是一个大规模的体素超分辨率（VSR）数据集，旨在研究实验室CT（Lab-CT）采集之间的域偏移问题。该数据集与CVPR 2026论文一同发布。

核心信息

总扫描数量：32个体积扫描，覆盖16个样本。
采集方式：在不同成像条件下对每个样本进行配对的高、低分辨率体素采集。
数据用途：适用于体素超分辨率（3D SR）、域泛化与域偏移分析、基于学习的SR方法基准测试。

数据集结构

数据集按训练集和测试集划分，层级结构如下：

VoDaSuRe/ └── ome/ ├── train/ └── test/

所有体积数据以OME-Zarr格式存储。

数据格式（OME-Zarr）

每个样本的 .zarr 层级包含三种模态，每种模态包含不同分辨率层级：

HR：高分辨率参考体积（包含0至3级分辨率）
LR：未配准的低分辨率体积（包含0至3级分辨率）
REG：已配准且强度匹配的低分辨率体积（包含0至1级分辨率）

数据集大小

总大小：约489 GB（压缩后）
解压后磁盘需求：约500 GB

下载方式

Python（推荐）： python from huggingface_hub import snapshot_download

snapshot_download( repo_id="AugustHoeg/VoDaSuRe", repo_type="dataset" )
Git LFS： bash git lfs install git clone https://huggingface.co/datasets/AugustHoeg/VoDaSuRe

数据使用

数据以压缩的 .tar 归档文件提供，解压后可使用支持OME-Zarr的库（如 zarr、ome-zarr-py、dask）访问。数据维度顺序为 (D, H, W)，其中第一维 D 对应切片索引。

示例（加载并查看切片）： python import zarr

z = zarr.open("ome/train/Bamboo_A_bin1x1_ome_1.zarr", mode="r") img_hr = z["HR/0"][1000, :, :] # 高分辨率切片 img_reg = z["REG/0"][250, :, :] # 配准后的低分辨率切片 img_lr = z["LR/0"][1000, :, :] # 未配准的低分辨率切片

注意：加载完整体积可能超出系统内存。

数据集创建

通过实验室CT（Lab-CT）进行配对的高、低分辨率体积采集而创建。

许可

许可证：CC-BY-4.0

引用

bibtex @article{hoeg2026vodasure, title={VoDaSuRe: A Large-Scale Dataset Revealing Domain Shift in Volumetric Super-Resolution}, author={August Leander Høeg and Sophia Wiinberg Bardenfleth and Hans Martin Kjer and Tim Bjørn Dyrby and Vedrana Andersen Dahl and Anders Dahl}, journal={Proceedings of the Computer Vision and Pattern Recognition Conference}, year={2026}, url={https://augusthoeg.github.io/VoDaSuRe/} }

搜集汇总

数据集介绍

构建方式

VoDaSuRe数据集面向三维体素超分辨率研究中的域偏移问题而构建，由32个样本的扫描体数据组成，每个样本均在高、低两种分辨率下通过实验室CT成像系统采集，并配以多种成像条件以模拟真实场景下的域间差异。数据以OME-Zarr格式组织，包含训练与测试划分，并提供了高分辨率参考体积、未配准的低分辨率体积以及经过配准与强度校正的低分辨率体积三类模态，为系统性分析域偏移提供了结构化的数据基础。

使用方法

用户可通过Hugging Face Hub使用Python的`snapshot_download`方法便捷下载数据集，或利用Git LFS克隆仓库。解压后的`.zarr`文件夹可使用`zarr`、`ome-zarr-py`或`dask`等库进行高效读取，支持懒加载以减少内存压力。典型使用流程包括打开指定样本的Zarr存储树，通过`HR/0`、`REG/0`等路径加载不同模态与分辨率级别的切片数据，并注意体数据遵循(D, H, W)维度顺序，切片索引对应第一维深度方向，从而适配超分辨率网络的训练与推理流程。

背景与挑战

背景概述

在三维图像分析领域，体素超分辨率技术旨在从低分辨率三维体数据中重建高分辨率结构，广泛应用于生物医学成像与材料科学中的计算机断层扫描（CT）分析。然而，现有超分辨率方法多假设训练与测试数据来自同一成像域，忽略了实验室CT设备在不同采集参数、样品特性与噪声分布下产生的域偏移问题。VoDaSuRe数据集由August Leander Høeg等研究者于2026年提出，发表于CVPR 2026，旨在系统揭示并解决体素超分辨率中的域偏移现象。该数据集包含16个样品的32个体积扫描，每个样品在变化成像条件下重复采集，为评估和提升超分辨率方法的跨域泛化能力提供了规模化基准。通过引入未配准与配准后低分辨率两种模态，VoDaSuRe推动了真实场景下三维超分辨率研究的标准化与可复现性。

当前挑战

VoDaSuRe聚焦的核心挑战在于：第一，体素超分辨率本身面临从低分辨率到高分辨率三维映射的病态逆问题，尤其在实验室CT中，扫描参数变化导致图像分辨率、对比度与噪声模式异质性显著，传统超分辨率模型易在域偏移下性能骤降。第二，数据集构建过程中需克服配准与强度匹配难题——HR与LR扫描因采集时序差异存在空间错位与非线性强度变化，手动配准难以精确对齐，且大体积数据（总计约489GB）采用OME-Zarr分层格式存储，对高效加载、多尺度访问与内存管理提出工程挑战。此外，跨域学习的标注需求与计算资源限制也构成了现实瓶颈。

常用场景

经典使用场景

VoDaSuRe数据集专为体积超分辨率（Volumetric Super-Resolution, VSR）任务而设计，其经典使用场景聚焦于三维图像的超分辨率重建。具体而言，研究者可利用该数据集中的高分辨率（HR）和低分辨率（LR）配对体积数据，训练深度学习模型以恢复高保真度的三维结构。尤其值得一提的是，数据集提供了未配准（LR）与配准（REG）两种低分辨率模态，这使得模型不仅能够学习简单的上采样映射，还能应对真实世界中因扫描参数差异导致的几何与强度偏移，从而评估和提升算法在复杂成像条件下的鲁棒性。该数据集以高效的多分辨率OME-Zarr格式存储，支持惰性加载，便于处理数百GB的大规模体积数据，为3D超分辨率研究提供了标准化的训练与测试基准。

解决学术问题

VoDaSuRe旨在解决体积超分辨率领域中一个长期被忽视的学术问题——域偏移（Domain Shift），即不同实验室CT（Lab-CT）扫描条件下获取的低分辨率图像之间存在显著分布差异。传统的超分辨率模型通常在理想化、同源的数据上表现优异，但一旦面临来自不同扫描仪、不同采样参数或不同样本科类的低分辨率输入，其性能便会急剧下降。通过提供来自16个不同样品在多种条件下获取的32组配对体积扫描，该数据集首次系统性地揭示了这一跨域泛化瓶颈，并推动了域自适应（Domain Adaptation）与域泛化（Domain Generalization）方法在三维医学与材料影像分析中的应用。其意义在于为构建真正鲁棒、适用于现实终端CT系统的超分辨率算法奠定了数据基础，有望显著提升深度学习模型在实验室CT、工业无损检测及生物医学成像中的实际可用性。

实际应用

在实际应用中，VoDaSuRe数据集所支持的体积超分辨率技术具有广阔的落地前景。在工业无损检测领域，低剂量或快速扫描常导致三维重建分辨率不足，借助VoDaSuRe训练的模型可对稀疏采样的断层扫描数据进行超分辨率重建，在保证采集效率的同时恢复精细的内部结构细节，从而提升缺陷检测的准确性。在临床与生物医学影像中，微型CT或活体CT受辐射剂量和扫描时间限制，往往无法获得高分辨率的体数据，利用该数据集开发的算法可以在后处理阶段提升图像质量，辅助医生进行更精准的组织分割与病理分析。此外，材料科学中对多孔介质、复合材料等微观三维结构的表征同样依赖高分辨率体积影像，VoDaSuRe提供的多模态、多尺度数据能帮助模型在实际扫描条件变化时依然保持稳定的重建性能，推动该技术从学术研究走向工程部署。

数据集最近研究