five

EntropicOTBenchmark

收藏
arXiv2023-11-01 更新2024-07-30 收录
下载链接:
https://github.com/ngushchin/EntropicOTBenchmark
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了一系列概率分布对,用于测试和评估神经EOT/SB解算器在解决连续熵最优传输问题上的性能。

This dataset comprises a set of paired probability distributions, which are used to test and evaluate the performance of neural EOT/SB solvers when solving continuous entropic optimal transport problems.
创建时间:
2023-06-17
原始信息汇总

Continuous Entropic OT (Schrodinger Bridge) Benchmark

数据集概述

该数据集包含一组连续基准分布,用于测试EOT/SB(Entropic Optimal Transport/Schrodinger Bridge)求解器在二次成本下的性能。数据集来源于Nikita Gushchin等人在NeurIPS 2023发表的论文《Building the Bridge of Schrödinger: A Continuous Entropic Optimal Transport Benchmark》。

数据集结构

  • notebooks/mixtures_benchmark_visualization_eot.ipynb:可视化图像基准对,计算指标示例。
  • notebooks/mixtures_benchmark_visualization_sb.ipynb:可视化最优过程的轨迹,计算指标示例。
  • notebooks/images_benchmark_visualization.ipynb:可视化图像基准对。
  • notebooks/images_langevin_sampling.ipynb:从噪声样本中获取去噪样本。
  • notebooks/plot_mixtures_results_eot.ipynb:绘制EOT方法在混合基准上的定性结果(PCA投影)。
  • notebooks/plot_mixtures_results_sb.ipynb:绘制SB方法在混合对上的定量结果(KL/RKL)。
  • benchmark_construction_examples:如何从数据构建基准对的示例。

数据加载

混合基准对

python from eot_benchmark.gaussian_mixture_benchmark import ( get_guassian_mixture_benchmark_sampler, get_guassian_mixture_benchmark_ground_truth_sampler, get_test_input_samples, )

DIM = 16 # 2,16,64,128 EPS = 0.1 # 0.1, 1, 10 BATCH_SIZE = 1024 GPU_DEVICE = 0

input_sampler = get_guassian_mixture_benchmark_sampler(input_or_target="input", dim=DIM, eps=EPS, batch_size=BATCH_SIZE, device=f"cuda:{GPU_DEVICE}", download=True)

target_sampler = get_guassian_mixture_benchmark_sampler(input_or_target="target", dim=DIM, eps=EPS, batch_size=BATCH_SIZE, device=f"cuda:{GPU_DEVICE}", download=True)

ground_truth_plan_sampler = get_guassian_mixture_benchmark_ground_truth_sampler(dim=DIM,eps=EPS, batch_size=BATCH_SIZE , device=f"cuda:{GPU_DEVICE}", download=True)

图像基准对

python import torch from matplotlib import pyplot as plt from eot_benchmark.image_benchmark import ImageBenchmark

EPS = 0.1 GPU_DEVICE = 0

benchmark = ImageBenchmark(batch_size=20, eps=EPS, glow_device=f"cuda:{GPU_DEVICE}", samples_device=f"cuda:{GPU_DEVICE}", download=False)

X_sampler = benchmark.X_sampler Y_sampler = benchmark.Y_sampler GT_sampler = benchmark.GT_sampler

测试图像数据集

测试图像数据集(用于cFID,每个“y”对应5k个“x”)可通过以下链接获取:链接。这些是int8张量,使用torch.load加载。标准FID的测试集可通过内置函数自动下载。

python X_test_sampler = benchmark.X_test_sampler Y_test_sampler = benchmark.Y_test_sampler

搜集汇总
数据集介绍
main_image_url
构建方式
在连续熵最优传输与薛定谔桥的研究领域中,构建具有已知解析解的数据集对于评估神经求解器的性能至关重要。EntropicOTBenchmark 通过引入一种创新方法,生成概率分布对,其真实最优传输解在构造过程中即被确定。该方法基于弱最优传输理论,通过预设的 Kantorovich 势函数与源分布,利用熵正则化最优传输的解析形式,推导出条件传输计划的显式表达式。具体而言,采用对数-求和-指数形式的二次函数作为势函数,结合高斯混合模型,实现了在高维空间(如图像空间)中高效采样,从而构建出连续且非平凡的基准分布对。
使用方法
使用该数据集时,研究者可将其作为标准测试平台,评估连续熵最优传输或薛定谔桥求解器的性能。具体流程包括:从源分布和目标分布中采样批量数据用于训练神经求解器;利用数据集提供的真实条件传输计划与最优漂移函数,计算如条件 Bures-Wasserstein 距离或条件 FID 等指标,定量比较学习到的传输计划与真实解之间的差异。对于图像等高维数据,还可通过潜在空间中的马尔可夫链蒙特卡洛方法,采样真实条件分布以进行更精细的评估。数据集的代码实现公开可用,支持灵活配置不同维度与正则化参数,方便研究者进行广泛的实验验证。
背景与挑战
背景概述
在机器学习和最优传输领域,EntropicOTBenchmark数据集于2023年由Skoltech研究团队提出,旨在解决连续熵正则化最优传输与薛定谔桥问题中缺乏可靠评估基准的难题。该数据集通过构建具有已知解析解的概率分布对,为神经EOT/SB求解器提供了严格的测试平台,推动了生成建模与扩散模型的理论与实践进展。其核心研究在于建立一种通用方法,生成高维空间中地面真实EOT解明确可知的分布对,从而填补了该领域长期存在的评估空白。
当前挑战
EntropicOTBenchmark面临的挑战主要体现在两个方面:其一,在领域问题层面,EOT与薛定谔桥问题本身涉及高维概率分布间的质量传输,其求解需要平衡计算效率与理论精度,而现有神经求解器的性能评估缺乏客观标准;其二,在构建过程中,如何设计既非平凡又具有解析可处理性的分布对是一大难点,特别是需确保条件传输计划能高效采样,同时避免仅依赖高斯分布等简单特例。
常用场景
经典使用场景
在生成建模与图像翻译领域,EntropicOTBenchmark 数据集为评估连续熵最优传输与薛定谔桥神经求解器提供了关键基准。该数据集通过构造已知解析解的概率分布对,使得研究者能够精确量化算法在恢复真实传输计划方面的性能。其经典使用场景包括高维空间中的噪声到数据生成以及数据到数据转换任务,特别是在64×64名人脸图像空间上验证了求解器在复杂分布间的传输能力。
解决学术问题
该数据集解决了熵最优传输与薛定谔桥领域长期缺乏非平凡评估基准的学术难题。通过提供具有已知解析解的高维连续分布对,它使得研究者能够严格检验神经求解器是否真正逼近了理论上的传输计划,而非仅仅依赖参数化技巧或正则化手段。这一进展澄清了算法性能与问题求解本质之间的关联,为理论验证与算法比较奠定了坚实基础。
实际应用
在实际应用中,EntropicOTBenchmark 数据集为生成模型的开发与优化提供了可靠的测试平台。其构建的分布对可模拟真实场景下的噪声到数据生成与图像到图像翻译任务,帮助开发者评估传输算法在生成质量、多样性与计算效率方面的表现。该数据集进一步推动了扩散模型与最优传输在图像合成、医学成像及单细胞数据分析等领域的应用落地。
数据集最近研究
最新研究方向
在最优传输与生成建模领域,EntropicOTBenchmark 数据集的提出标志着对连续熵正则化最优传输及薛定谔桥问题求解器评估的重要突破。该数据集通过构建具有解析已知地面真值的最优传输对,为高维空间中的神经求解器提供了首个理论严谨的基准测试平台。前沿研究聚焦于利用该基准评估扩散模型与薛定谔桥方法在图像合成与转换任务中的性能,揭示现有求解器在近似真实EOT/SB解时的局限性与改进空间。相关热点事件包括NeurIPS 2023数据与基准赛道对该数据集的收录,以及其在生成式人工智能中对扩散模型推理效率优化的推动作用。这一进展不仅促进了计算最优传输领域的透明化与标准化,还为跨学科研究如单细胞数据分析提供了可靠的评估工具,具有深远的理论与应用意义。
相关研究论文
  • 1
    Building the Bridge of Schrödinger: A Continuous Entropic Optimal Transport Benchmark · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作