five

Reangle-A-Video

收藏
arXiv2025-03-12 更新2025-03-14 收录
下载链接:
http://arxiv.org/abs/2503.09151v1
下载链接
链接失效反馈
官方服务:
资源简介:
本文提出了一种名为Reangle-A-Video的框架,用于从单个输入视频生成同步的多视角视频。该框架首先通过自监督的方式对图像到视频的扩散变换器进行微调,以学习视图不变的运动;然后,使用DUSt3R多视图立体重建模型在推理时确保多视图一致性。文中没有详细描述使用的数据集,而是强调了框架的能力和实现的多视图视频生成效果。

This paper proposes a framework named Reangle-A-Video for generating synchronized multi-view videos from a single input video. First, the framework fine-tunes an image-to-video diffusion transformer in a self-supervised manner to learn view-invariant motion; then, it employs the DUSt3R multi-view stereo reconstruction model to ensure multi-view consistency during inference. The paper does not elaborate on the datasets used, but instead emphasizes the framework's capabilities and the achieved multi-view video generation results.
提供机构:
韩国科学技术院(KAIST AI)
创建时间:
2025-03-12
搜集汇总
数据集介绍
main_image_url
构建方式
Reangle-A-Video数据集的构建方式是通过将动态4D场景分解为视角特定的外观(起始图像)和视角不变的运动(图像到视频生成),并分别处理每个组件。首先,通过使用单目视频的重复基于点的扭曲生成的扭曲视频来增强训练数据集。然后,使用自监督微调的方式对预训练的图像到视频扩散模型进行微调,以捕获场景的视角不变运动。最后,通过在推理时使用DUSt3R多视图立体重建网络,在交叉视图一致性指导下,将输入视频的第一帧扭曲并修复到各种摄像机视角下,生成多视图一致的起始图像。
特点
Reangle-A-Video数据集的特点是它能够从单个输入视频中生成同步的多视图视频,而不依赖于多视图生成先验。它支持静态视图传输和动态相机控制,允许视频从目标视角重新模拟,并且视频可以逐渐过渡到目标视角。此外,Reangle-A-Video在静态视图传输和动态相机控制方面的实验结果表明,它优于现有方法,为多视图视频生成提供了一种新的解决方案。
使用方法
使用Reangle-A-Video数据集的方法包括两个主要阶段:多视图运动学习和多视图一致图像到图像翻译。在多视图运动学习阶段,通过在自监督方式下同步微调图像到视频扩散转换器,从一组扭曲视频中提取视角不变的运动。在多视图一致图像到图像翻译阶段,使用DUSt3R在推理时进行交叉视图一致性指导,将输入视频的第一帧扭曲并修复到各种摄像机视角下,生成多视图一致的起始图像。然后,使用这些起始图像和微调后的图像到视频模型生成多视图视频。
背景与挑战
背景概述
Reangle-A-Video数据集是由韩国科学技术院(KAIST)人工智能实验室的研究人员Hyeonho Jeong、Suhyeon Lee和Jong Chul Ye在2025年提出的。该数据集旨在解决多视角视频生成的问题,通过将多视角视频生成任务重构为视频到视频的翻译,利用公开可用的图像和视频扩散先验知识。Reangle-A-Video框架分为两个阶段:多视角运动学习和多视角一致图像到图像的翻译。这一框架为多视角视频生成提供了一种新的解决方案,并且已经在静态视角传输和动态相机控制任务中取得了超越现有方法的成果。
当前挑战
Reangle-A-Video数据集所面临的挑战主要涉及两个方面:一是解决领域问题,即如何从单视角视频中生成同步的多视角视频;二是构建过程中遇到的挑战,包括如何有效地捕获场景中视不变的运动,如何生成多视角一致的起始图像,以及如何在推理时保持多视角一致性。为了解决这些挑战,Reangle-A-Video采用了基于点云的扭曲方法来生成训练数据,并使用掩码扩散损失进行轻量级微调。此外,为了确保在推理时保持多视角一致性,Reangle-A-Video引入了随机控制引导机制。然而,该数据集仍然存在一些局限性,例如输入图像质量对生成视频质量的影响,以及扭曲阶段可能产生的几何失真和深度不一致等问题。未来的工作方向包括改进深度模型以提高扭曲和修复图像的质量,以及扩展现有视频数据集以训练4D基础模型。
常用场景
经典使用场景
Reangle-A-Video 数据集的主要使用场景是从单一视角的视频中生成同步的多视角视频。该数据集可以用于静态视角传输和动态相机控制,为视频生成任务提供了新的解决方案。
解决学术问题
Reangle-A-Video 数据集解决了多视角视频生成中缺乏动态 4D 生成先验的问题。它通过将多视角视频生成任务重构为视频到视频的翻译任务,利用了公开可用的图像和视频扩散先验,从而避免了在大型 4D 数据集上训练多视角视频扩散模型的限制。
衍生相关工作
Reangle-A-Video 数据集衍生了多项相关工作,包括多视角视频生成、相机可控视频生成等。这些工作进一步推动了视频生成技术的发展,为用户提供了更多选择和可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作