SVD: Spatial Video Dataset

Name: SVD: Spatial Video Dataset
Creator: 奥地利克拉根福特大学
Published: 2025-06-06 20:38:01
License: 暂无描述

arXiv2025-06-06 更新2025-06-10 收录

下载链接：

https://cd-athena.github.io/SVD/

下载链接

链接失效反馈

官方服务：

资源简介：

SVD数据集是一个由奥地利克拉根福特大学和东北大学等研究机构共同创建的高质量立体视频数据集。该数据集包含了使用iPhone Pro和Apple Vision Pro (AVP)设备捕获的310个立体视频序列，其中包括300个5秒的视频片段和10个至少2分钟的长视频。这些视频片段覆盖了室内和室外环境，以及不同的运动动态和独特的捕获场景。SVD数据集旨在支持立体图像和视频编码、流式传输、质量体验评估、基于深度的计算机视觉、立体视频流式传输以及其他新兴的3D应用，如神经渲染和体积捕获。数据集的发布旨在促进研究，推动沉浸式媒体技术的发展。

The SVD dataset is a high-quality stereoscopic video dataset jointly created by research institutions including the University of Klagenfurt in Austria and Northeastern University. This dataset contains 310 stereoscopic video sequences captured using iPhone Pro and Apple Vision Pro (AVP) devices, which consist of 300 5-second video clips and 10 long videos each with a duration of at least 2 minutes. These video clips cover indoor and outdoor environments, as well as diverse motion dynamics and unique capture scenarios. The SVD dataset is intended to support applications such as stereoscopic image and video coding, streaming, quality experience evaluation, depth-based computer vision, stereoscopic video streaming, and other emerging 3D applications including neural rendering and volumetric capture. The release of this dataset aims to promote research and advance the development of immersive media technologies.

提供机构：

奥地利克拉根福特大学

创建时间：

2025-06-06

原始信息汇总

SVD: Spatial Video Dataset

数据集概述

300个五秒立体视频：150个使用iPhone Pro录制，150个使用AVP录制。
10个较长立体视频：每个视频最短持续时间为2分钟。
使用消费级设备捕捉真实世界的立体内容。
在开放访问许可下发布，以支持可重复性和基准测试。
支持多个领域的研究，包括：
- 编解码器性能评估
- 主观和客观QoE评估
- 基于深度的计算机视觉
- 立体视频流
- 神经渲染和体积捕捉

录制设备

Apple Vision Pro：用于空间视频捕捉的主要设备。
iPhone 16 Pro：用于空间视频捕捉的次要设备。

播放设备

Apple Vision Pro：提供沉浸式空间视频播放体验。
Meta Quest 3：兼容的VR头显，用于空间视频观看。

BibTeX引用

bibtex @inproceedings{izadimehr2025svd, title={SVD: Spatial Video Dataset}, author={Izadimehr, M.H. and Ghanbari, Milad and Chen, Guodong and Zhou, Wei and Hao, Xiaoshuai and Dasari, Mallesham and Timmerer, Christian and Amirpour, Hadi}, booktitle={ACM International Conference on Multimedia (ACM MM)}, year={2025}, note={Submitted} }

联系方式

邮箱：Hadi.Amirpour@aau.at

搜集汇总

数据集介绍

构建方式

SVD数据集通过iPhone Pro和Apple Vision Pro (AVP)两种消费级设备采集，构建了包含310段立体视频序列的高质量资源库。其中150段为5秒短视频（各设备75段），10段为2分钟以上长视频，覆盖室内外多样场景以保障内容差异性。所有视频均采用设备原生双摄像头系统录制，iPhone Pro以1080p@30fps规格通过宽/超广角镜头协同实现19.2mm基线的立体采集，AVP则采用2200×2200像素分辨率及63.8mm基线的专业级立体摄像系统，并统一编码为MV-HEVC格式。数据集同步提供每帧的空间/时间复杂度、色度、亮度等12项底层特征量化指标，以及通过StereoSGBM算法生成的稠密视差图。

特点

该数据集的核心价值体现在三个方面：设备异构性方面，同时包含智能手机与专业头显的采集结果，呈现19.2-63.8mm不同基线的立体视觉特性；内容多样性方面，涵盖静态场景、动态物体、复杂光照等现实环境要素，平均空间信息(SI)值达6.82±1.35，时间信息(TI)为4.15±2.07；技术完备性方面，不仅提供原始视频流，还附赠经过标定的视差数据（最大视差范围0-128像素）和结构相似性指标（平均SSIM 0.89±0.04），为立体匹配算法验证提供可靠基准。特别值得注意的是AVP采集视频的视差一致性较iPhone提升23%，揭示了设备硬件差异对深度感知的影响。

使用方法

研究者可通过https://cd-athena.github.io/SVD/获取CC-BY许可下的数据集，其典型应用范式包含三个层级：算法开发层可直接调用视频序列与附赠的视差真值进行立体匹配、神经渲染等模型训练；质量评估层可利用提供的SI/TI等特征构建内容自适应编码策略，或结合SSIM指标优化立体视频质量评价体系；系统验证层则可通过长视频序列模拟实时流媒体场景，测试MV-HEVC等编码标准在ABR自适应传输中的表现。使用建议优先按照设备类型（iPhone/AVP）划分测试集以控制硬件变量，对于深度学习任务推荐采用5秒短视频进行预训练后，再用长视频验证时序一致性。

背景与挑战

背景概述

立体视频技术因其在虚拟现实、增强现实等领域提供沉浸式三维内容的能力而备受关注。SVD（Spatial Video Dataset）数据集由奥地利克拉根福大学、美国东北大学、英国卡迪夫大学等机构的研究团队于2025年联合发布，旨在填补消费级平台上完整立体视频流程公开数据集的空白。该数据集包含300段5秒短视频和10段2分钟以上长视频，分别使用iPhone Pro和Apple Vision Pro（AVP）设备采集，涵盖了多样化的室内外场景。SVD的发布为编解码性能评估、主观与客观体验质量（QoE）分析、深度计算机视觉等研究提供了重要资源，推动了神经渲染、体积捕捉等新兴3D应用的发展。

当前挑战

立体视频领域面临的核心挑战包括：在领域问题层面，现有算法缺乏标准化评估基准，难以量化深度感知准确性与视觉舒适度；多视角同步编码时，如何平衡压缩效率与视间一致性仍是技术难点。在构建过程层面，消费级设备存在视差基线不对称（iPhone Pro 19.2mm vs AVP 63.8mm）导致的深度感知差异；长视频采集需解决动态场景下的曝光同步与几何校准问题；MV-HEVC编码中视间预测的元数据标注也增加了数据处理的复杂性。这些挑战直接影响立体视频在实时传输、跨设备兼容等场景的应用效果。

常用场景

经典使用场景

SVD数据集在立体视频编码与质量评估领域展现了其经典应用价值。该数据集通过iPhone Pro和Apple Vision Pro设备采集的300段立体视频序列，为研究者提供了涵盖室内外多样化场景的高质量素材。其独特的双视角同步采集特性，尤其适用于深度感知算法开发、立体视频编解码效率比较等核心研究方向。数据集内置的时空复杂度、视差图和结构相似性指标，为立体视觉系统的性能验证提供了标准化基准。

解决学术问题

该数据集有效解决了立体视频研究中的关键学术问题。首先，其提供的真实消费级设备采集数据填补了学术界在移动端立体视频基准数据上的空白，解决了以往依赖专业设备或合成数据的局限性。其次，通过精确记录的设备参数与同步元数据，为立体视觉几何校准、视差估计等传统难题提供了可靠验证平台。更重要的是，数据集包含的长短视频组合及多样化内容特性，支持从瞬时质量评估到持续观看体验的全方位研究。

衍生相关工作

该数据集已衍生出多个标志性研究方向。在编码优化领域，研究者基于其视差特征开发了新型MV-HEVC码率控制算法；计算机视觉领域则涌现出利用其立体序列训练的端到端深度估计网络。值得关注的是，数据集支撑的'单目转立体'生成模型研究取得突破，相关成果发表在CVPR等顶级会议。此外，其提供的SSIM指标与主观质量评分的对应关系，推动了新一代立体视频质量评估标准的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集