ImViD
收藏arXiv2026-04-11 更新2026-04-14 收录
下载链接:
https://github.com/Metaverse-AI-Lab-THU/ImViD
下载链接
链接失效反馈官方服务:
资源简介:
ImViD是由清华大学等机构联合构建的多模态沉浸式体视频数据集,采用空间导向捕获策略,通过定制化移动采集设备同步获取多视角视频与音频。该数据集包含复杂室内外场景的5K分辨率60FPS动态内容(单段1-5分钟),涵盖360度前景-背景交互与挑战性运动模式,在空间覆盖度、时间连续性和多模态丰富性上超越现有基准。数据采集过程结合静态密集采样与动态长时记录,通过高斯时空表征框架支持动态光场重建与声场合成,主要应用于VR/AR领域的沉浸式媒体生产,旨在解决真实场景高自由度交互与多模态同步重建的难题。
提供机构:
清华大学; 中国科学院·自动化研究所; 咪咕北京研究院
创建时间:
2026-04-11
原始信息汇总
ImViD 数据集概述
数据集简介
ImViD 是一个多视角、多模态的数据集,专注于完整的空间导向数据采集,并包含多种室内外场景。该数据集包含以5K分辨率和每秒60帧捕获的高分辨率、同步的视听内容,视频时长从1分钟到5分钟不等。
核心特征
- 数据模态:多视角、多模态(包含视听内容)。
- 采集质量:视频分辨率为5K,帧率为60 FPS。
- 场景多样性:包含室内和室外多种场景。
- 数据完整性:提供完整的空间导向数据采集。
数据集内容摘要
数据集包含7个场景,总计16个拍摄片段,总时长约38分46秒,总存储量约为2069.3 GB。
| 场景 | 摄像机数量 | 静态视点数量 | 拍摄次数 | 采集策略 | 平均时空密度 (m³/s) | 观看空间 | 时长 | 存储量 (GB) |
|---|---|---|---|---|---|---|---|---|
| Opera | 39 | 1152 | 2 | 1–180° | – | 180° | 3:22 | 226 |
| Laboratory | 39 | 1225 | 2 | 2 | 0.10 | 360° | 1:42 | 137.3 |
| Classroom | 39 | 1223 | 2 | 2 | 0.10 | 360° | 4:42 | 497 |
| Meeting | 39 | 1223 | 1 | 1–360° | – | 360° | 3:16 | 114 |
| Rendition | 39 | 1620 | 4 | 2 | 0.10 | 360° | 2:02 | 516 |
| Puppy | 39 | 1404 | 3 | 2 | 0.10 | 360° | 1:50 | 359 |
| Playing | 39 | 1224 | 2 | 2 | 0.10 | 360° | 1:10 | 220 |
| 总计 | – | – | 16 | – | – | – | 38:46 | 2069.3 |
数据获取与使用
下载流程
- 下载并填写申请表格:https://github.com/Metaverse-AI-Lab-THU/ImViD/blob/main/docs/application_form.pdf
- 将填写好的表格通过电子邮件发送给联系人(见下文“联系”部分)。
- 获得批准后,将收到下载说明。
样本数据
一个包含场景1视频(300×5K@60 FPS,H.264 MP4格式)及COLMAP风格相机元数据文件(cameras.txt 和 images.txt)的小样本数据集可在发布页面获取:https://github.com/Metaverse-AI-Lab-THU/ImViD/releases/tag/v0.2
数据使用说明
- 帧提取:提供了脚本 (
scripts/extract_frames.py) 用于从视频中提取单帧图像。 - 相机参数:元数据文件
cameras.txt和images.txt遵循COLMAP原生格式,可直接用于运动恢复结构(SfM)处理。 - 注意事项:视频对齐精度约为10-20毫秒。若需更高精度,需联系作者。使用相机参数时,需确保帧图像文件名与
images.txt中列出的图像名称完全匹配。
附加数据
数据集还提供了移动采集设备捕获的数据。该数据对现有校准方法提出了挑战,但公开此数据旨在推动领域发展。相关细节可参阅论文。
元信息
- 相关论文:CVPR 2025 Highlight 论文。
- 许可证:本项目采用 CC BY 4.0 许可证。
- 联系:
- Zhengxian Yang: zx-yang23@mails.tsinghua.edu.cn
- Shengqi Wang: shengqi-21@mails.tsinghua.edu.cn
- 引用格式: bibtex @InProceedings{Yang_2025_CVPR, author = {Yang, Zhengxian and Pan, Shi and Wang, Shengqi and Wang, Haoxiang and Lin, Li and Li, Guanjun and Wen, Zhengqi and Lin, Borong and Tao, Jianhua and Yu, Tao}, title = {ImViD: Immersive Volumetric Videos for Enhanced VR Engagement}, booktitle = {Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR)}, month = {June}, year = {2025}, pages = {16554-16564} }
搜集汇总
数据集介绍

构建方式
在虚拟现实与增强现实领域,高保真度的沉浸式体验依赖于对真实世界动态场景的精准捕捉与重建。ImViD数据集的构建采用了空间导向的采集理念,通过定制化的移动多视角采集系统实现。该系统集成了39台同步触发的GoPro相机与麦克风,安装于半球形支架并搭载于可移动平台,模拟人眼高度与自然视角。采集策略分为两步:首先对静态环境进行高密度360度图像采集,建立全局坐标系与稀疏几何参考;随后以固定点拍摄与移动拍摄两种模式,同步录制5K分辨率、60帧率的多视角视频与音频,时长1至5分钟。数据处理中,通过世界时间码确保毫秒级同步,并利用运动恢复结构(SfM)与特征匹配实现动态序列与静态背景的无缝空间对齐。
使用方法
该数据集主要用于支持沉浸式体视频(IVV)的构建与研究,尤其适用于动态场景的神经渲染与多模态重建任务。研究者可利用其多视角视频序列训练或评估动态光场重建算法,例如基于高斯溅射的时空表示方法。数据集提供的同步音频可用于探索新颖视角的声场合成,实现视觉与听觉一致的6自由度沉浸体验。具体使用中,通常将单一视角留作测试,其余视图用于模型训练,并采用峰值信噪比(PSNR)、结构相似性(SSIM)与学习感知图像块相似度(LPIPS)等指标进行定量评估。此外,其校准的相机姿态与静态背景参考便于算法进行几何一致性约束与时空监督,推动高质量、高保真度沉浸式媒体内容生成的研究。
背景与挑战
背景概述
沉浸式体积视频(Immersive Volumetric Videos, IVV)作为虚拟与增强现实领域的前沿媒体格式,旨在提供大范围六自由度交互空间、视听反馈以及高分辨率、高帧率的动态内容。为支撑该领域研究,清华大学等机构的研究团队于2024年构建了ImViD数据集。该数据集基于空间导向的采集理念,通过定制的多视角同步采集设备,捕获了涵盖室内外场景的长时间、高保真多模态数据。其核心研究问题在于如何从真实世界捕获的视频中构建具备完全沉浸感的动态体积视频,以弥合计算机生成内容与真实场景捕捉之间的鸿沟。ImViD以5K分辨率、60帧率提供1至5分钟的视频序列,在空间覆盖、时间连续性与多模态完整性上超越了现有基准,为动态光场重建、声场重构等关键任务奠定了高质量数据基础,对推动沉浸式媒体生产与交互体验研究具有显著的奠基性影响。
当前挑战
ImViD数据集致力于解决沉浸式体积视频构建这一核心领域问题,其面临的首要挑战在于如何实现对复杂动态场景的高保真、时空一致的重建。真实世界场景常包含快速运动、丰富的前景-背景交互以及复杂的光照变化,现有动态神经渲染方法在平衡几何精度、时间连贯性、渲染效率与存储成本方面存在显著不足。其次,在数据集构建过程中,研究团队需克服多模态数据同步采集的工程难题。为实现亚毫秒级的时间对齐,需设计精密的硬件同步触发机制,并处理移动拍摄中设备形变带来的位姿估计误差。此外,大规模高分辨率数据的采集、处理与存储也构成了严峻挑战,要求设计高效的标定、重建与优化流程,以确保数据质量与可用性。
常用场景
经典使用场景
在沉浸式媒体与扩展现实领域,ImViD数据集为构建高保真沉浸式体积视频提供了关键的多模态基准。其经典使用场景集中于动态光场与声场的联合重建研究,通过提供高分辨率、高帧率且时空同步的多视角视频与音频数据,支撑了从复杂动态场景中恢复出可供六自由度自由探索的4D视听内容。研究者利用该数据集训练和验证新型神经渲染与高斯溅射算法,旨在实现长时间、大范围动态场景的高质量、实时渲染,为虚拟现实中的真实感沉浸体验奠定数据基础。
解决学术问题
ImViD数据集有效应对了沉浸式媒体研究中长期存在的若干挑战。它解决了现有动态数据集在空间覆盖、时间长度、分辨率与多模态同步性方面的局限,为复杂动态场景的4D重建提供了高质量、大规模的真实世界数据。该数据集支撑的研究工作致力于攻克动态光场重建中的时空一致性、运动模糊与存储效率等难题,并首次探索了从多视角视听数据中进行声场重建的方法,从而在学术上推动了面向六自由度交互的沉浸式体积视频从定义、重建到渲染的完整技术链条发展。
实际应用
基于ImViD数据集构建的技术管线,其实际应用已延伸至多个前沿领域。在虚拟现实与增强现实中,它能够生成支持用户自由行走、环视并伴有空间音频反馈的沉浸式内容,适用于高端虚拟旅游、远程全息呈现、沉浸式教育培训与文化数字存档。在影视娱乐与元宇宙内容创作中,该技术为制作高互动性的动态体积视频提供了高效流程。此外,其在机器人仿真、自动驾驶场景构建等需要高保真动态环境建模的领域也展现出潜在应用价值。
数据集最近研究
最新研究方向
在沉浸式媒体与扩展现实领域,ImViD数据集正推动着多模态6自由度动态场景重建的前沿探索。该数据集凭借其高分辨率、高帧率的多视角同步视频与音频采集能力,为构建沉浸式体视频提供了关键的数据基础。当前研究聚焦于基于高斯溅射的动态光场重建与声场重建的协同优化,旨在实现视觉与听觉反馈的高度统一。通过流引导稀疏初始化、联合相机时间校准以及多术语时空监督等技术,研究者致力于在复杂动态环境中提升重建的时空一致性与渲染效率。这一方向不仅回应了VR/AR应用中对大范围交互空间与逼真多模态体验的迫切需求,也为文化遗产数字化、远程全息呈现等场景提供了切实可行的技术路径,标志着沉浸式体视频从概念定义向系统化构建的重要跨越。
相关研究论文
- 1Realizing Immersive Volumetric Video: A Multimodal Framework for 6-DoF VR Engagement清华大学; 中国科学院·自动化研究所; 咪咕北京研究院 · 2026年
以上内容由遇见数据集搜集并总结生成



