AnyViewBench
收藏arXiv2026-01-24 更新2026-01-27 收录
下载链接:
https://tri-ml.github.io/AnyView
下载链接
链接失效反馈官方服务:
资源简介:
AnyViewBench是由丰田研究院与亚马逊网络服务联合构建的综合性动态视图合成基准,旨在解决极端相机轨迹下的多视角视频生成问题。该数据集整合了12个跨领域4D数据集(如驾驶、机器人、人类活动等),涵盖单视角与多视角视频,通过加权采样确保各领域数据均衡。其数据来源包括真实场景与仿真环境,支持复杂相机运动模式(固定、线性、非线性)及内外参变化。该基准的建立推动了无需显式3D重建的隐式神经表示研究,主要应用于机器人视觉、自动驾驶、VR/AR等领域,为生成视角一致且时空稳定的动态场景提供评估基础。
AnyViewBench is a comprehensive dynamic view synthesis benchmark jointly developed by Toyota Research Institute and Amazon Web Services, which aims to address the multi-view video generation problem under extreme camera trajectories. This dataset integrates 12 cross-domain 4D datasets (e.g., driving scenarios, robotic applications, human activity recordings, etc.), covering both single-view and multi-view videos, and ensures balanced data distribution across domains via weighted sampling. Its data sources encompass both real-world scenes and simulated environments, and supports complex camera motion modes including fixed, linear, and nonlinear motions, as well as variations in intrinsic and extrinsic camera parameters. This benchmark has advanced the research on implicit neural representations that do not require explicit 3D reconstruction. It is primarily applied in fields such as robotic vision, autonomous driving, VR/AR, and provides an evaluation foundation for generating dynamic scenes with consistent viewpoints and spatio-temporal stability.
提供机构:
丰田研究院; 亚马逊网络服务
创建时间:
2026-01-24
原始信息汇总
AnyView数据集详情总结
数据集名称
AnyView
核心任务
动态视角合成:给定任意摄像机轨迹拍摄的单段视频,预测同一场景在任意其他摄像机轨迹下、时间同步的视频。
方法概述
- 基础模型:采用潜在扩散变换器(Cosmos)作为基础模型。
- 核心机制:不依赖扭曲深度图等显式条件,仅依靠隐式学习的4D表示。
- 摄像机参数编码:将所有摄像机参数编码为统一的普吕克表示P=(r,m),将外参和内参组合成密集的每像素光线和矩向量。这些嵌入沿通道维度连接,而两个视点沿序列维度连接以形成完整的令牌集。
数据集构成
训练数据
结合了来自四个不同领域的12个不同的4D(多视角视频)数据集:
- Robotics
- Driving
- 3D
- Other 训练时执行加权采样,确保每个领域被等频率(即批次的25%)看到,以创建平衡的表示。
新引入的数据集/基准
-
Kubric-5D
- 描述:新生成的Kubric-4D变体,极大地增加了摄像机轨迹的多样性,并融入了诸如推拉变焦等高级电影制作效果。这些场景包含具有丰富视觉外观和复杂动态的多物体交互,并提供覆盖多种摄像机运动的同步多视角视频。
- 下载状态:下载链接即将发布!
-
AnyViewBench
- 描述:一个多方面的基准测试,涵盖多个领域的数据集:
- Driving: Argoverse, DDAD, Lyft-L5, ParallelDomain, Waymo
- Robotics: DROID, Kubric, LBM
- Human Activity: AssemblyHands, Ego-Exo4D
- 下载状态:下载链接即将发布!
- 描述:一个多方面的基准测试,涵盖多个领域的数据集:
评估与结果
- 评估基准:在标准基准测试上评估,展示了与当前最先进技术具有竞争力的结果。
- 极端场景性能:在提出的新基准AnyViewBench(针对多样真实世界场景中的极端动态视角合成)上,大多数基线方法性能急剧下降,而AnyView在从任何视点提示时,仍能保持生成真实、合理且时空一致视频的能力。
- 对比方法:包括Depth reprojection、GCD、TrajAttn、GEN3C、TrajCrafter、CogNVS等。
关键特性
- 端到端操作:不依赖显式3D重建或昂贵的测试时优化。
- 支持极端视点位移:输入和输出视点之间可能几乎没有重叠。
- 保持一致性:在显著不同的目标姿态和高度“不完整”的视觉观察下,仍能保持场景几何、外观和动态。
- 零样本生成:能够从任意摄像机位置和轨迹生成零样本的新视频。
- 高级推理能力:展示了利用细微视觉线索提高未观察区域生成准确性的能力,体现了高级常识和时空推理。
论文信息
- 标题:AnyView: Synthesizing Any Novel View in Dynamic Scenes
- 状态:In Submission
- 年份:2026
- 作者:Basile Van Hoorick, Dian Chen, Shun Iwase, Pavel Tokmakov, Muhammad Zubair Irshad, Igor Vasiljevic, Swati Gupta, Fangzhou Cheng, Sergey Zakharov, Vitor Campagnolo Guizilini
- 机构:Toyota Research Institute, Amazon Web Services
- BibTeX引用:
@inproceedings{vanhoorick2026anyview, title={AnyView: Synthesizing Any Novel View in Dynamic Scenes}, author={Van Hoorick, Basile and Chen, Dian and Iwase, Shun and Tokmakov, Pavel and Irshad, Muhammad Zubair and Vasiljevic, Igor and Gupta, Swati and Cheng, Fangzhou and Zakharov, Sergey and Guizilini, Vitor Campagnolo}, journal={In Submission}, year={2026}}
搜集汇总
数据集介绍

构建方式
AnyViewBench的构建旨在应对动态场景中极端视角合成的挑战,其设计理念源于现有动态视角合成基准在相机运动范围有限、视角重叠度高的局限。该数据集通过整合多个公开的多视角视频数据集,涵盖驾驶、机器人、人类活动等多个领域,并精心设计了多样化的相机轨迹模式,包括固定、线性及复杂非线性运动。每个场景至少提供两个时间同步的视角,确保能够基于真实视频进行严格的度量评估,避免了依赖代理设置的不足。数据集的构建过程注重标准化,明确了视频分辨率、帧数、相机参数及运动空间等关键细节,从而为极端动态视角合成任务提供了全面且具有挑战性的评估平台。
特点
AnyViewBench的核心特点在于其专注于极端动态视角合成场景,突破了传统基准在相机位移和视角重叠方面的限制。数据集覆盖了驾驶、机器人操作和人类活动等多个真实世界领域,并包含了从静态到动态、从简单线性到复杂轨迹的多样化相机运动模式。其设计确保了每个评估场景均具备时间同步的多视角视频,支持基于真实数据的直接度量计算,无需依赖间接的代理方法。此外,数据集明确区分了分布内和零样本测试集,能够全面评估模型在不同泛化场景下的性能,为动态视角合成研究提供了更为严谨和具有挑战性的评估标准。
使用方法
使用AnyViewBench进行评估时,研究者需以单目输入视频及其相机参数为条件,生成指定目标相机轨迹下的输出视频。数据集提供了清晰的评估协议,包括输入与目标相机的姿态、内参以及时间同步的真实视频。评估过程通常涉及计算生成视频与真实视频之间的峰值信噪比、结构相似性指数和感知损失等标准度量指标。由于数据集涵盖了极端相机位移和有限视角重叠的场景,它特别适用于测试模型在保持时空一致性、场景几何与外观合理性方面的能力。通过在该基准上的性能比较,可以深入分析不同动态视角合成方法在复杂真实环境中的有效性与泛化性。
背景与挑战
背景概述
AnyViewBench作为动态视角合成领域的前沿基准,由丰田研究院与亚马逊云服务等机构的研究团队于2026年提出,旨在解决极端相机轨迹下的动态场景新视角生成问题。该数据集构建于AnyView扩散框架之上,专注于推动单目视频在剧烈视角变化下的时空一致性生成能力,其核心研究问题在于如何从有限观测中推断未知区域的几何结构与动态行为,为机器人学、自动驾驶等领域的视觉感知与仿真提供了关键评估工具。
当前挑战
AnyViewBench所应对的领域挑战在于极端动态视角合成任务的高度不确定性,即从单目视频生成任意新视角时需处理大规模遮挡、动态物体进入以及时空一致性保持等难题。在构建过程中,数据集面临多源异构数据整合的复杂性,需协调12个不同领域的4D数据集以覆盖驾驶、机器人、人类活动等多种场景,同时确保相机轨迹的多样性与标注精度,以支撑模型在零样本与分布外场景下的鲁棒性评估。
常用场景
经典使用场景
在动态场景视觉合成领域,AnyViewBench作为评估基准,其经典使用场景聚焦于极端动态视角合成任务。该数据集通过整合自动驾驶、机器人操作和人类活动等多个真实世界领域的多视角视频数据,构建了具有挑战性的测试环境。研究者通常利用该数据集评估模型在输入视角与目标视角空间重叠度极低、相机轨迹变化剧烈条件下的生成能力,检验模型是否能够从单一输入视频中合成任意虚拟视角下时空一致的动态视频序列。
解决学术问题
AnyViewBench主要解决了动态视角合成研究中模型泛化能力不足的核心学术问题。传统方法通常在相机运动受限、视角重叠度高的“狭窄”设定下表现良好,但在真实世界极端视角变化时性能急剧下降。该数据集通过提供多样化的相机运动模式(包括固定、线性和复杂轨迹)和跨领域场景,迫使模型学习隐式的四维场景理解,而非依赖显式几何重建。其意义在于推动了生成模型从局部修补向全局推理的范式转变,为构建具有强时空一致性的世界模型奠定了基础。
衍生相关工作
围绕AnyViewBench数据集,衍生出了一系列专注于提升极端动态视角合成性能的研究工作。例如,GCD(Generative Camera Dolly)首次尝试利用扩散模型进行单目动态新视角合成,但受限于有限的相机自由度。Trajectory Attention通过轨迹感知注意力机制增强了视频扩散模型的细粒度相机控制能力。GEN3C采用显式三维信息引导的生成框架以提高几何一致性。TrajCrafter和CogNVS则探索了基于深度重投影与修补的混合方法。这些工作共同推动了动态视角合成从“狭窄”设定向“极端”设定的演进,逐步提升了模型在复杂真实场景下的生成质量与鲁棒性。
以上内容由遇见数据集搜集并总结生成



