InteriorVideo

Name: InteriorVideo
Creator: City University of Hong Kong, WeChat, Manycore Tech Inc.
Published: 2025-10-10 01:50:31
License: 暂无描述

arXiv2025-10-10 更新2025-10-11 收录

下载链接：

https://luckyhzt.github.io/x2video

下载链接

链接失效反馈

官方服务：

资源简介：

InteriorVideo是一个包含1154个房间，来自297个不同室内场景的视频数据集，提供了渲染的视频帧和可靠的地面真实内禀通道序列，以及平滑的相机轨迹。该数据集旨在支持训练X2Video模型，该模型能够生成长距离、时间一致且逼真的视频，并支持通过内禀通道、参考图像和文本提示进行多模态控制。

InteriorVideo is a video dataset comprising 1154 rooms from 297 distinct indoor scenes. It provides rendered video frames, reliable ground-truth intrinsic channel sequences, as well as smooth camera trajectories. This dataset is intended to support the training of the X2Video model, which is capable of generating long-range, temporally consistent and photorealistic videos, and supports multimodal control via intrinsic channels, reference images and text prompts.

提供机构：

City University of Hong Kong, WeChat, Manycore Tech Inc.

创建时间：

2025-10-10

原始信息汇总

X2Video 数据集概述

基本信息

数据集名称: X2Video
全称: UniColor LVCD X2Video
项目标题: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering

研究团队

机构:
- 香港城市大学（香港特别行政区，中国）
- 腾讯微信（深圳，中国）
- Manycore Tech Inc.（杭州，中国）
通讯作者: Jing Liao

核心功能

首个基于扩散模型的光真实感视频渲染系统
支持本征通道引导：反照率、法线、粗糙度、金属度和辐照度
多模态控制：参考图像和文本提示（全局和局部区域）

技术特点

模型架构

扩展XRGB图像生成模型至视频生成
混合自注意力机制：确保时间一致性并增强参考图像保真度
掩码交叉注意力机制：解耦全局和局部文本提示

序列采样

递归采样方法：结合关键帧预测和帧插值
保持长程时间一致性
防止误差累积

训练数据

数据集名称: InteriorVideo
规模: 1,154个房间，来自295个室内场景
内容: 可靠的真实本征通道序列和平滑相机轨迹

应用场景

动态场景泛化
室外场景泛化
其他PBR渲染场景泛化

相关资源

论文: https://luckyhzt.github.io/x2video
补充材料: https://luckyhzt.github.io/x2video（包含87个演示视频）

搜集汇总

数据集介绍

构建方式

InteriorVideo数据集的构建依托于室内场景的三维建模与物理渲染技术，通过精心设计的相机轨迹生成机制实现数据采集。在295个室内场景中分解出1154个独立房间，每个房间以1.7米高度模拟人眼视角初始化相机位置，通过加权采样算法引导相机朝向空间几何中心移动，优先选择可见物体数量丰富的区域。相机以0.05米/秒速度沿平滑轨迹运动，以10帧/秒速率渲染视频序列，最终生成包含RGB帧及完整本征通道（反照率、法线、粗糙度、金属度、辐照度）的同步数据，其中辐照度通道经过Open Image Denoise库进行降噪优化，确保物理属性的准确性。

特点

该数据集的核心特点在于其完备的多模态本征通道标注与自然连贯的时空特性。所有视频序列均配备经过验证的五种本征通道真值，包括反照率、法线、粗糙度、金属度与辐照度，形成对场景材质、几何与光照的完整物理描述。相较于现有室内数据集，其相机轨迹通过自适应权重算法实现平滑过渡，相邻帧间平均光流位移达3.16像素，有效支撑时序一致性学习需求。数据集涵盖多样化室内空间结构与材质组合，为基于物理的神经渲染模型提供了兼具视觉真实性与物理准确性的训练基础。

使用方法

该数据集主要服务于本征条件引导的视频生成与编辑任务，其多模态数据结构支持灵活的输入配置。研究者可将本征通道序列作为条件输入，结合参考图像、全局文本提示或局部掩码文本等控制信号，训练扩散模型实现物理属性精确控制的视频合成。在推理阶段，通过递归采样策略可扩展生成长视频序列，其中关键帧预测与帧插值阶段分别利用首尾参考帧增强时序一致性。数据集还可用于评估生成视频的材质保真度、光照准确性与时序连贯性，为神经渲染研究提供标准化评测基准。

背景与挑战

背景概述

InteriorVideo数据集于2025年由香港城市大学与腾讯等机构联合构建，旨在推动基于物理属性的神经视频渲染研究。该数据集聚焦于室内场景的视觉合成，通过提供完整的本征通道序列——包括反照率、法线、粗糙度、金属度和辐照度，为X2Video等扩散模型的训练奠定了数据基础。其核心研究问题在于解决传统物理渲染方法在计算效率与交互灵活性上的局限，通过数据驱动的方式实现高质量视频生成与多模态控制，显著提升了计算机图形学与生成式人工智能的融合深度。

当前挑战

InteriorVideo面临的挑战主要体现在两个方面：在领域问题层面，需解决视频生成中时序一致性与物理属性精确控制的平衡问题，例如如何在保持帧间连贯性的同时准确还原材质反射与光照效果；在构建过程中，数据集需克服现有室内场景数据中本征通道不可靠与相机轨迹不连续的缺陷，通过设计基于可见性权重的相机路径规划算法，确保视频序列在复杂室内环境中的平滑性与视觉合理性。

常用场景

经典使用场景

InteriorVideo数据集在计算机视觉与图形学领域主要用于室内场景的神经视频渲染研究。该数据集通过提供完整的本征通道序列和流畅的相机轨迹，为基于物理的渲染技术提供了标准化训练基准。研究人员利用其丰富的材质属性和光照信息，开发能够生成具有精确色彩、材质和光照效果的视频生成模型，显著提升了视频渲染的真实感与可控性。

解决学术问题

该数据集有效解决了传统物理渲染方法计算成本高、操作复杂的问题，为基于扩散模型的视频生成提供了可靠数据支撑。通过提供完整的本征通道数据，包括反照率、法线、粗糙度、金属度和辐照度，使得模型能够学习准确的材质属性和光照交互，实现了对色彩、材质、几何和光照的精确控制，推动了可控视频生成领域的技术突破。

衍生相关工作

基于InteriorVideo数据集衍生的X2Video框架开创了本征引导视频生成的新范式。该工作提出的混合自注意力机制和递归采样策略被后续研究广泛借鉴，如改进的时序一致性方法和局部区域控制技术。相关成果推动了ControlNet、Stable Video Diffusion等模型在材质感知生成方向的发展，为多模态视频编辑系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集