DPS Benchmark Dataset

Name: DPS Benchmark Dataset
Creator: 瑞士洛桑联邦理工学院生物医学成像组
Published: 2025-09-16 16:46:21
License: 暂无描述

arXiv2025-09-16 更新2025-09-19 收录

下载链接：

https://github.com/zacmar/dps-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

DPS Benchmark Dataset 是一个用于评估扩散后验采样 (DPS) 算法的统计基准数据集。该数据集由稀疏 Lévy 过程先验合成的信号组成，其后验分布可以使用高效的 Gibbs 方法进行采样。这些 Gibbs 方法可以用来获得黄金标准的后验样本，这些样本可以与 DPS 算法获得的样本进行比较。该数据集支持在反问题上进行后验水平比较，例如去噪、去卷积、插值和部分傅里叶测量重建等。数据集的创建过程是通过合成信号来实现的，这些信号来自离散化的稀疏 Lévy 过程先验，其结果是后验分布可以有效地从这些先验中采样。数据集的应用领域是评估和比较不同的 DPS 算法，旨在解决在贝叶斯线性反问题中如何有效地从后验分布中采样的问题。

The DPS Benchmark Dataset is a statistical benchmark dataset for evaluating diffusion posterior sampling (DPS) algorithms. This dataset consists of signals synthesized from sparse Lévy process priors, whose posterior distributions can be sampled using efficient Gibbs methods. These Gibbs methods can be used to obtain gold-standard posterior samples, which can be compared against the samples generated by DPS algorithms. This dataset supports posterior-level comparisons across inverse problems, such as denoising, deconvolution, interpolation, and partial Fourier measurement reconstruction, among others. The dataset is created by synthesizing signals derived from discretized sparse Lévy process priors, enabling efficient sampling of the posterior distributions from these priors. The dataset is applied to evaluate and compare different DPS algorithms, aiming to address the challenge of efficiently sampling from posterior distributions in Bayesian linear inverse problems.

提供机构：

瑞士洛桑联邦理工学院生物医学成像组

创建时间：

2025-09-16

原始信息汇总

Diffusion Posterior Sampling Benchmark 数据集概述

数据集简介

Diffusion Posterior Sampling Benchmark 是一个用于扩散后验采样（DPS）算法的可复现基准测试数据集，专注于典型逆问题（去噪、去卷积、插补和部分傅里叶测量重建）。

核心特征

算法评估：包含基于模型的基线方法和端到端脚本
功能范围：支持去噪器训练、参数搜索、后验采样和评估全流程
技术依赖：使用自定义 CUDA/C++ 采样操作符和 Triton 编译的 Python 内核

数据生成

信号类型：合成训练/验证/测试信号
分布类型：支持高斯、拉普拉斯、学生t、伯努利-拉普拉斯等跳跃分布
测量模拟：包含测试信号的测量过程模拟和金标准后验采样

处理流程

数据生成：合成指定跳跃分布的信号
去噪器训练：训练噪声条件分数网络
参数搜索：在验证集上选择模型方法和DPS算法参数
后验采样：使用最优参数运行DPS算法
评估可视化：生成图表和主要表格

系统要求

硬件：需要 NVIDIA GPU 支持 CUDA 加速
存储空间：完整运行需要约 171 GB 存储空间
环境：推荐使用 Docker 容器环境确保编译可靠性

引用信息

@misc{zach2025statisticalbenchmarkdiffusionposterior, title={A Statistical Benchmark for Diffusion Posterior Sampling Algorithms}, author={Zach, Martin and Haouchat, Youssef and Unser, Michael}, year={2025}, eprint={2509.12821}, archivePrefix={arXiv}, primaryClass={eess.SP}, url={https://arxiv.org/abs/2509.12821}, }

搜集汇总

数据集介绍

构建方式

该数据集通过合成稀疏Lévy过程先验的信号构建，这些先验的后验分布支持高效的Gibbs采样方法。具体而言，信号由独立平稳增量的离散化Lévy过程生成，包括高斯、拉普拉斯、Student-t和Bernoulli-Laplace等分布类型。测量数据通过线性逆问题模型y = Ax + n模拟，其中A为前向算子（如去噪、解卷积、插值和部分傅里叶测量），n为加性高斯噪声。Gibbs方法通过潜变量增强技术实现后验采样，确保采样效率与数值稳定性。

特点

数据集的核心特点在于其统计严谨性与可重复性。它提供了基于稀疏Lévy先验的金标准后验样本，支持对扩散后验采样（DPS）算法的分布级评估。其先验设计能够捕捉重尾和极端值行为，弥补了传统高斯混合先验的不足。此外，数据集包含去噪、解卷积、插值和傅里叶重建四种逆问题场景，覆盖了测量信噪比约25dB的多样化条件。所有信号、测量及金标准样本均通过解析生成，确保了理论一致性与计算可追溯性。

使用方法

数据集用于评估DPS算法的统计性能，重点关注后验采样质量与似然得分近似的误差隔离。用户可通过对比算法生成样本与金标准Gibbs样本，计算最小均方误差最优性间隙或后验覆盖度等指标。基准代码库提供插件接口与配置驱动运行，支持新算法的快速集成。具体流程包括：生成测试信号与测量、运行DPS算法获取后验样本、调用Gibbs方法生成参考样本，最后通过指标量化比较。所有实现均基于PyTorch，支持GPU加速与并行计算。

背景与挑战

背景概述

DPS Benchmark Dataset由瑞士洛桑联邦理工学院生物医学成像组的Martin Zach、Youssef Haouchat和Michael Unser于2025年提出，专为评估扩散后验采样算法在贝叶斯线性逆问题中的统计性能而构建。该数据集基于稀疏Lévy过程先验生成信号，其后验分布可通过高效Gibbs采样方法获得黄金标准样本，解决了传统评估方法依赖感知指标或简化高斯先验的局限性。该框架支持去噪、解卷积、插值和部分傅里叶重建等核心逆问题，为扩散模型在医学成像和遥感等高风险领域的可靠应用提供了理论基础和实证工具。

当前挑战

该数据集解决的领域挑战在于扩散模型缺乏天然的条件机制，导致后验采样算法需依赖似然得分近似，而传统评估无法量化其统计偏差。构建过程中的挑战包括：设计能够重现重尾极端值的稀疏先验分布以替代有限高斯混合模型；开发高效Gibbs采样器处理非共轭后验，并通过潜在变量增广确保快速收敛；以及为兼容C-DPS、DiffPIR和DPnP等异构算法设计统一评估模板，隔离似然得分近似误差与先验得分近似误差。

常用场景

经典使用场景

在扩散模型后验采样算法的统计评估领域，DPS Benchmark Dataset通过合成来自稀疏Lévy过程先验的信号，为贝叶斯线性逆问题提供了标准化的测试环境。该数据集最经典的使用场景在于为去噪、解卷积、插值和部分傅里叶测量重建等逆问题算法提供黄金标准后验样本，从而支持算法在分布层面的精确比较。

实际应用

在实际应用中，该数据集被广泛应用于医学影像重建、金融时间序列去噪和遥感图像处理等领域。例如在磁共振成像中，研究人员利用其提供的黄金标准后验样本，验证扩散模型在部分傅里叶测量重建中的校准性能，确保临床决策基于可靠的不确定性估计。

衍生相关工作

该数据集衍生出多项经典研究工作，包括Chung等人的扩散后验采样（C-DPS）算法、Zhu等人的DiffPIR方法以及Xu等人的DPnP框架。这些工作通过该基准验证了不同似然分数近似策略的统计特性，并推动了扩散插值播放（DPnP）等新型算法模板的发展，为后续研究提供了可扩展的评估范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集