多视角数据集

Name: 多视角数据集
Creator: 都柏林圣三一学院电子与电气工程系
Published: 2025-08-13 00:37:30
License: 暂无描述

arXiv2025-08-13 更新2025-08-14 收录

下载链接：

https://drive.google.com/drive/folders/1J7QdGFcYw_AAAO6U9TNgBvTJwNCTYUo-?usp=sharing

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一个新的多视角数据集，该数据集使用自定义的密集线性相机阵列构建，旨在促进帧插值和视图合成技术之间的公平比较。该数据集包括真实和合成的场景，可以用于评估和训练算法，以生成新视角的图像。数据集由9个Raspberry Pi单元组成，每个单元配备一个12.3万像素的索尼IMX477传感器，以实现高分辨率图像捕获。数据集包含2140帧图像，其中包括10个对象的图像，这些对象在不同的距离上被捕获，以创建不同的视差效果。该数据集可用于评估和训练帧插值和视图合成算法，以生成新视角的图像。

This paper introduces a novel multi-view dataset constructed with a custom dense linear camera array, which aims to facilitate fair comparisons between frame interpolation and view synthesis techniques. This dataset includes both real and synthetic scenes, and can be used to evaluate and train algorithms for generating novel-view images. The dataset consists of 9 Raspberry Pi units, each equipped with a 123,000-pixel Sony IMX477 sensor to enable high-resolution image capture. The dataset contains 2140 image frames, including images of 10 objects captured at different distances to create various parallax effects. This dataset can be used to evaluate and train frame interpolation and view synthesis algorithms for generating novel-view images.

提供机构：

都柏林圣三一学院电子与电气工程系

创建时间：

2025-08-13

搜集汇总

数据集介绍

构建方式

该多视角数据集的构建采用了定制化的密集线性相机阵列，由9个Raspberry Pi单元组成，每个单元配备12.3兆像素的Sony IMX477传感器，以38mm的固定间距排列成34.2cm的线性阵列。数据采集过程在受控环境下进行，通过三点布光系统记录10类目标物体在近（0.75m）、中（1m）、远（1.25m）三种距离下的多视角影像。原始数据经过严格的几何校正、色彩平衡和图像稳定化处理流程，最终生成1080p和720p两种分辨率的对齐序列。为增强数据多样性，研究团队还整合了1600帧合成数据，形成总计2140帧的跨模态基准库。

特点

该数据集最显著的特征在于其时空双重采样特性，既包含传统时间维度的帧间插值基准，又提供空间维度的视角合成评估场景。其线性相机阵列产生的34.2cm基线长度创造了丰富的视差变化，而精确同步的9路视频流确保了时空采样的一致性。数据集中真实场景与合成数据的有机结合，为算法在噪声环境与理想条件下的性能对比提供了可能。特别设计的评估协议要求算法在连续三视图中插值中间帧，这种滑动窗口机制有效检验了算法在空间连续性和时间一致性上的表现。

使用方法

使用该数据集时，研究者可采用标准化的五步流程：首先通过COLMAP进行运动恢复结构预处理（适用于3D高斯泼溅等方法），随后加载经过几何校正的序列数据。评估阶段建议采用PSNR和SSIM双指标体系，重点关注算法在真实数据与合成数据上的性能差异。对于深度学习模型，可利用数据集提供的多距离样本进行域适应训练。需要注意的是，部分算法如ST-MFNet需要前后多帧输入，应按照论文附录中的滑动窗口策略调整数据加载方式。数据集特别适合进行跨模态算法比较研究，包括传统运动补偿方法与现代神经渲染技术的性能基准测试。

背景与挑战

背景概述

多视角数据集由都柏林圣三一学院Sigmedia研究组的Conall Daly和Anil Kokaram于2025年提出，旨在解决帧插值与视图合成算法间的公平比较难题。传统帧插值数据集侧重时间维度单相机运动，而视图合成数据集偏重立体深度估计，导致两类方法难以直接对比。该数据集采用定制密集线性相机阵列，捕捉10个物体在三种距离下的多视角图像，填补了时空联合插值评估的数据空白，为影视特效、虚拟现实等领域的算法研发提供了重要基准。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域问题层面，需解决窄基线密集采样场景中时空插值的统一建模问题，现有方法在真实场景与合成数据上表现差异显著（如3D高斯泼溅在合成数据领先5dB PSNR却在真实数据落后3.5dB）；构建过程层面，密集相机阵列的同步控制、跨设备色彩校正、几何畸变消除等工程难题突出，后期处理需采用专业视觉特效工具链进行帧稳定化与对齐，且SfM预处理对真实数据的适应性不足导致30%的异常值剔除。

常用场景

经典使用场景

多视角数据集在计算机视觉领域中被广泛应用于帧插值和视图合成任务。该数据集通过密集线性相机阵列捕获同一场景的多视角图像，为研究者提供了丰富的空间和时间信息。在经典使用场景中，研究者可以利用该数据集比较不同帧插值算法（如运动补偿插值）与视图合成方法（如3D高斯泼溅）在视图中间生成任务上的性能表现。

衍生相关工作

基于该数据集衍生的经典工作包括对贝叶斯框架插值方法（ACKMRF）与深度学习技术（如UPR-Net、ST-MFNet）的系统比较。3D高斯泼溅技术的性能分析研究也受益于此数据集，揭示了该技术在真实场景与合成场景下的显著性能差异。这些工作推动了动态滤波器网络、运动估计子网络等新型架构的发展。

数据集最近研究