Dynamic RealEstate10K (D-RE10K); D-RE10K-iPhone

Name: Dynamic RealEstate10K (D-RE10K); D-RE10K-iPhone
Creator: 弗吉尼亚大学
Published: 2026-01-16 02:59:58
License: 暂无描述

arXiv2026-01-16 更新2026-01-17 收录

下载链接：

https://wild-rayzer.cs.virginia.edu/

下载链接

链接失效反馈

官方服务：

资源简介：

Dynamic RealEstate10K是由弗吉尼亚大学构建的大规模动态场景数据集，包含1.5万条真实室内视频序列，涵盖相机移动和物体运动的复杂场景。该数据集通过YouTube房地产导览和宠物互动视频筛选构建，包含人类、宠物等动态元素，填补了现有静态NVS数据集的空白。其子集D-RE10K-iPhone提供配对的瞬态/干净视图基准，支持稀疏视图下的瞬态感知NVS评估。该数据集旨在推动动态环境中自监督新视角合成技术发展，解决传统方法在动态内容处理时的多视角一致性问题。

Dynamic RealEstate10K is a large-scale dynamic scene dataset constructed by the University of Virginia, which contains 15,000 real indoor video sequences covering complex scenarios involving camera motions and object movements. This dataset is built by filtering YouTube real estate tours and pet interaction videos, and includes dynamic elements such as humans and pets, filling the gap left by existing static Neural View Synthesis (NVS) datasets. Its subset D-RE10K-iPhone provides paired transient/clean view benchmarks, supporting transient-aware NVS evaluation under sparse-view settings. This dataset aims to promote the development of self-supervised novel view synthesis technologies in dynamic environments, and solve the multi-view consistency problem that traditional methods face when processing dynamic content.

提供机构：

弗吉尼亚大学

创建时间：

2026-01-16

搜集汇总

数据集介绍

构建方式

在动态场景三维视觉研究中，大规模动态数据集的稀缺制约了模型训练与评估。Dynamic RealEstate10K (D-RE10K) 的构建旨在填补这一空白，其数据来源于公开的房地产漫游视频与室内宠物互动内容。通过多阶段筛选流程，首先基于元数据识别高质量视频源，随后利用图像质量评估与光学字符识别技术剔除低质量帧及文字覆盖，最终借助场景切割检测与相机轨迹估计，提取出包含稳定相机运动与丰富动态对象（如行人、宠物）的室内序列，形成了包含1.5万段真实动态场景的大规模数据集。

特点

D-RE10K 的显著特征在于其真实性与动态性兼备，突破了传统静态新视角合成数据集的局限。该数据集不仅规模庞大，还涵盖了自然光照下相机与物体同时运动的复杂室内环境，为动态场景理解提供了贴近现实的训练素材。此外，其衍生的 D-RE10K-iPhone 基准测试集通过三脚架固定拍摄，提供了成对的瞬态与干净视图，确保了稀疏视角下几何重叠的精确评估，从而支持对瞬态区域重建与全帧保真度的细粒度分析。

使用方法

该数据集主要用于动态环境下新视角合成模型的训练与评估。研究人员可借助 D-RE10K 的大规模动态序列进行自监督学习，训练模型在无需相机位姿或动态区域标注的情况下分离静态结构与瞬态对象。在评估阶段，D-RE10K-iPhone 的成对视图允许对模型在稀疏输入下的重建质量进行定量分析，通过掩码图像质量指标（如掩码PSNR、SSIM与LPIPS）分别衡量静态区域与瞬态区域的合成效果，从而系统比较不同方法在动态场景中的性能。

背景与挑战

背景概述

Dynamic RealEstate10K（D-RE10K）及其配对版本D-RE10K-iPhone是2025年由弗吉尼亚大学研究团队构建的大规模动态场景数据集，旨在推动动态环境中新视角合成（NVS）的研究。该数据集作为RealEstate10K的自然扩展，包含了1.5万条真实室内动态序列，涵盖手持相机拍摄的包含人、宠物等移动对象的视频。其核心研究问题在于解决传统静态NVS模型在动态场景下面临的多视角一致性破坏问题，如重影、几何幻觉及姿态估计不稳定等。D-RE10K的发布填补了动态NVS数据稀缺的空白，为自监督学习框架如WildRayZer提供了大规模训练与评估基础，显著提升了动态场景三维重建的鲁棒性与泛化能力。

当前挑战

D-RE10K数据集主要应对动态新视角合成领域的双重挑战。在领域问题层面，动态内容破坏了静态场景依赖的多视角一致性，导致模型难以区分相机运动与对象运动，从而引发渲染中的伪影与几何失真。构建过程中的挑战包括：从网络视频中筛选高质量动态序列需克服光照变化、压缩伪影及文本水印干扰；为稀疏视角设定构建配对基准（如D-RE10K-iPhone）需精确控制相机位姿以最小化漂移，并确保静态与动态图像对的空间对齐；此外，生成可靠的运动标注需融合语义分割与外观差异，并在缺乏真实运动掩码监督下通过伪标签蒸馏实现动态区域定位。

常用场景

经典使用场景

在动态场景新视角合成领域，Dynamic RealEstate10K（D-RE10K）及其配对版本D-RE10K-iPhone为研究提供了关键的数据支撑。该数据集源自真实室内环境，包含大量手持相机拍摄的动态序列，其中相机与物体均处于运动状态，突破了传统静态场景数据集的局限。其最经典的使用场景在于训练和评估能够处理动态内容的新视角合成模型，例如WildRayZer等自监督框架，这些模型需要在稀疏、未标定姿态的输入视图下，分离瞬态物体与静态背景，并生成高质量的静态场景新视角渲染。

衍生相关工作

围绕D-RE10K数据集，已衍生出一系列重要的相关研究工作。其直接催生的WildRayZer框架，通过分析-合成策略与伪运动掩码蒸馏，实现了动态环境下的自监督新视角合成。该数据集也被用于评估和推进其他动态神经渲染方法，如WildGaussians、T-3DGS等，这些工作专注于将神经辐射场或3D高斯泼溅适配到野外动态场景。此外，数据集构建中采用的运动掩码生成与评估协议，也为视频运动分割、瞬态感知三维重建等方向提供了新的基准与灵感，促进了动态三维视觉领域的整体进展。

数据集最近研究