VoDaSuRe

Name: VoDaSuRe
Creator: 丹麦技术大学
Published: 2026-03-24 20:54:05
License: 暂无描述

arXiv2026-03-24 更新2026-03-26 收录

下载链接：

https://augusthoeg.github.io/VoDaSuRe/

下载链接

链接失效反馈

官方服务：

资源简介：

VoDaSuRe是由丹麦技术大学研发的大规模微CT扫描数据集，专为体数据超分辨率研究设计。该数据集包含16组生物与非生物样本（共32个扫描）的配对高低分辨率体积数据，总体素量达1940亿，涵盖木材、复合材料和骨骼等多领域微观结构。数据通过实验室CT扫描仪获取，采用4倍固定分辨率差采集，并经过配准、掩膜处理和强度匹配等严格流程处理。其核心价值在于揭示传统降采样训练与真实低分辨率扫描间的领域偏移问题，为医学影像分析、材料科学等领域的超分辨率算法提供真实基准测试平台。

VoDaSuRe is a large-scale micro-CT scanning dataset developed by the Technical University of Denmark, specifically designed for volumetric data super-resolution research. This dataset contains paired high-resolution and low-resolution volumetric data from 16 groups of biological and non-biological samples, totaling 32 scans, with an overall voxel count of 194 billion. It covers microstructures across multiple fields such as wood, composite materials and bone. The data was acquired using a laboratory CT scanner with a fixed 4-fold resolution difference, and underwent strict post-processing workflows including registration, masking and intensity matching. Its core value lies in revealing the domain shift problem between traditional downsampling-based training and real low-resolution scans, providing a realistic benchmark platform for super-resolution algorithms in fields such as medical imaging analysis and materials science.

提供机构：

丹麦技术大学

创建时间：

2026-03-24

原始信息汇总

VoDaSuRe 数据集概述

数据集基本信息

名称: VoDaSuRe (A Large-Scale Dataset Revealing Domain Shift in Volumetric Super-Resolution)
发布年份: 2026
发布会议: CVPR (Proceedings of the Computer Vision and Pattern Recognition Conference)
作者: August Leander Høeg, Sophia Wiinberg Bardenfleth, Hans Martin Kjer, Tim Bjørn Dyrby, Vedrana Andersen Dahl, Anders Dahl
机构: Technical University of Denmark, Kgs. Lyngby, Denmark
相关资源:
- 代码与数据链接: https://augusthoeg.github.io/VoDaSuRe/
- arXiv链接: https://augusthoeg.github.io/VoDaSuRe/

数据集核心特点与规模

核心目的: 专为真实世界体数据超分辨率任务设计的大规模数据集，旨在揭示体超分辨率中的域偏移问题。
数据规模: 包含16个样本，总计超过194吉体素（gigavoxels）的3D数据。
扫描数量: 包含32个微CT扫描（每个样本对应高分辨率和低分辨率扫描）。
核心特性:
- 真实多分辨率数据: 所有样本均包含扫描获得的高分辨率体积数据和低分辨率体积数据。
- 多样化微结构: 涵盖多样化的结构复杂性，包括木材、复合材料和骨骼。
- 分层数据格式: 数据以多尺度OME-Zarr格式存储，便于访问不同分辨率。
- 高效数据加载: 优化的OME-Zarr数据加载器支持大规模体数据训练和推理。
- 可复现框架: 同时发布了用于体超分辨率的PyTorch框架VoxelSR，包含多个基线模型。

数据内容与样本构成

样本类型与数量:
- 人类股骨: 4个
- 人类椎骨: 4个
- 动物骨骼: 1个（牛骨）
- 木材样本: 5个树种（竹子、柏木、榆木、橡木、落叶松）
- 复合材料: 2个（中密度纤维板、纸板层压板）
数据维度概览: 提供了每个样本的高分辨率、低分辨率和配准后数据的体积形状（体素数），以及训练/测试切片划分。

数据预处理流程

数据采集: 对同一样本进行多分辨率嵌套CT扫描。
核心步骤:
1. 将低分辨率数据裁剪并配准到降采样后的高分辨率体积上。
2. 对低分辨率和高分辨率体积进行掩膜处理并匹配其强度直方图。
配准方法: 使用ITK-Elastix工具箱，采用仿射变换模型将低分辨率体积配准到降采样后的高分辨率体积，允许轻微形变以确保体素级对应。
存储格式: 所有扫描数据保存为OME-Zarr格式，最多包含四个分辨率级别，并为高分辨率、低分辨率和配准数据分别设立单独的组。

主要研究发现

域偏移问题:
- 在真实低分辨率数据上使用逐像素损失训练的超分辨率模型会产生过度平滑的预测，无法恢复精细结构。
- 在合成降尺度数据上训练的模型在合成数据上表现良好，但无法泛化到真实获取的体数据。
- 在真实低分辨率数据上评估时，基于合成数据训练的模型会产生结构“幻觉”。
- 研究表明，对于真实世界应用，基于合成数据训练模型的实践需要重新评估。
合成数据与真实数据的差异: 通过计算总变差量化高频信息损失，发现使用扫描低分辨率数据进行的预测总变差更低，表明真实低分辨率数据的超分辨率是比上采样降尺度低分辨率体积更困难的问题。

基准测试

评估模型: 在VoDaSuRe数据集上评估了广泛的先进超分辨率模型，包括2D和体超分辨率模型。
核心观察: 在合成低分辨率数据上训练的模型能够恢复大部分高频信息，而相同模型在真实低分辨率数据上训练则会产生过度平滑的微结构“幻觉”。

搜集汇总

数据集介绍

构建方式

在体积极分辨率研究领域，现有方法常依赖于对高分辨率数据进行下采样来构建训练对，这掩盖了真实低分辨率扫描中存在的域偏移问题。VoDaSuRe数据集的构建旨在填补这一空白，其通过同一显微CT扫描设备对16个生物与非生物样本进行多分辨率成像，获取了配对的高分辨率与真实低分辨率体积数据。数据采集过程中，高分辨率与低分辨率扫描之间设定了固定的4倍分辨率差异，确保低分辨率数据中部分微细结构丢失，从而构成具有挑战性的超分辨率任务。后续的数据处理流程包括扫描、配准、掩膜生成、强度匹配以及转换为OME-Zarr格式，其中配准步骤使用ITK-Elastix实现空间对齐，强度匹配则通过累积分布函数调整以确保对比度一致性，最终形成大规模、多分辨率的体积数据集。

使用方法

VoDaSuRe数据集主要服务于体积超分辨率模型的训练与评估，尤其侧重于揭示和解决真实采集数据与仿真下采样数据之间的域偏移问题。研究者可利用其提供的配对高分辨率与真实低分辨率体积，训练模型以学习从实际低质量扫描中恢复高频细节的能力。数据集以OME-Zarr格式存储，支持高效的外核采样，便于在内存受限环境下进行大规模三维块训练。典型的使用流程包括加载不同分辨率层级的体积块，构建训练对，并应用数据增强策略。在评估阶段，除了常规的峰值信噪比、结构相似性等指标，还可通过计算总变差等分析工具，定量衡量模型预测结果中高频结构的保留程度，从而深入理解模型在真实场景下的重建效能与局限性。

背景与挑战

背景概述

VoDaSuRe数据集由丹麦技术大学的研究团队于2026年提出，旨在应对体数据超分辨率领域的关键瓶颈。该数据集聚焦于揭示训练数据中存在的域偏移现象，即当前主流方法依赖于对高分辨率体数据进行下采样来生成低分辨率样本，而非使用真实采集的低分辨率扫描数据。VoDaSuRe包含了16个生物与非生物样本的配对高、低分辨率计算机断层扫描数据，涵盖木材、骨骼及复合材料等多种复杂微结构，总体素数量达到约1940亿，是目前规模最大的配对多分辨率体数据集。其核心研究问题在于评估超分辨率模型在真实低分辨率数据上的泛化能力，挑战了现有方法在模拟退化与真实采集数据间性能高估的现状，为体成像领域的科学进展提供了至关重要的基准。

当前挑战

VoDaSuRe数据集所针对的体数据超分辨率领域面临的核心挑战在于模型泛化性不足。现有方法在模拟下采样数据上表现优异，但在真实低分辨率扫描数据上会产生过度平滑的预测，无法有效恢复丢失的微观结构细节，这揭示了当前超分辨率任务对退化模型过度依赖的本质问题。在数据集构建过程中，研究团队需克服多项技术挑战：真实配对多分辨率体数据的采集成本高昂且过程复杂，需在同一显微CT设备上对同一样本进行多次扫描以确保分辨率差异的纯粹性；数据预处理涉及高精度的三维配准与强度匹配，以消除因采集条件不同带来的几何与对比度差异；此外，处理海量体素数据对存储与计算效率提出了严峻要求，团队通过采用OME-Zarr格式与高效的数据加载管线来实现大规模体数据的可管理访问与训练。

常用场景

经典使用场景

在体数据超分辨率领域，VoDaSuRe数据集为评估模型在真实低分辨率扫描条件下的性能提供了基准。该数据集包含成对的高分辨率和低分辨率CT扫描，覆盖木材、骨骼及复合材料等多种复杂微结构，使得研究者能够训练和测试模型在真实采集环境中的表现。通过对比基于下采样数据和真实扫描数据的训练结果，该数据集揭示了超分辨率模型在域偏移问题上的局限性，成为推动该领域向更实际应用迈进的关键工具。

解决学术问题

VoDaSuRe数据集主要解决了体数据超分辨率研究中因依赖合成下采样数据而导致的性能高估问题。传统方法通过下采样高分辨率图像生成低分辨率数据，忽略了真实扫描中存在的对比度差异、噪声及伪影等复杂因素，从而造成模型在实际应用中的泛化能力不足。该数据集通过提供真实采集的多分辨率扫描对，使研究者能够深入探究域偏移现象，推动开发更具鲁棒性的超分辨率算法，以恢复在低分辨率扫描中丢失的微结构细节。

实际应用

VoDaSuRe数据集在材料科学和生物医学成像领域具有广泛的实际应用价值。例如，在木材和复合材料的微结构分析中，高分辨率CT扫描能够揭示纤维排列和孔隙分布等细节，而低分辨率扫描则因采集时间或辐射剂量限制而无法捕捉这些特征。通过利用该数据集训练的超分辨率模型，可以在保持采集效率的同时提升图像质量，从而支持更精确的定量分析，如骨体积分数计算和材料缺陷检测，为工业质量控制和临床诊断提供可靠的技术支撑。

数据集最近研究