MSVS-1M
收藏arXiv2025-04-01 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.24374v1
下载链接
链接失效反馈官方服务:
资源简介:
MSVS-1M数据集是一个大规模的视图合成数据集,由Mapillary的街景图像构成,旨在促进广义实世界视图合成的实验研究。该数据集包含未经处理的、数量庞大的图像,支持对ERUPT模型等进行训练和评估,有助于提升模型在实际场景中的泛化能力和合成图像质量。
The MSVS-1M dataset is a large-scale view synthesis dataset composed of street view images from Mapillary, which aims to facilitate experimental research on generalized real-world view synthesis. This dataset contains vast quantities of unprocessed images, enabling the training and evaluation of models such as the ERUPT model, and helping to improve the generalization capability and synthesized image quality of models in real-world scenarios.
提供机构:
BlueHalo, Carnegie Mellon University
创建时间:
2025-04-01
搜集汇总
数据集介绍

构建方式
MSVS-1M数据集构建于Mapillary公开的街景图像资源,通过精心筛选与处理,确保了数据的多样性与真实性。研究团队从全球10个不同地点采集了约100万张图像,经过结构从运动(SfM)技术校正相机参数,并过滤模糊或雨滴影响的图像,最终形成32,000个连续场景序列。动态采样策略被应用于场景生成,通过随机选择5个视角作为输入,并基于正态分布采样目标视角,确保场景覆盖相同区域的同时保持视角多样性。此外,采用Gnomonic投影将全景图像转换为60度视场的局部图像,进一步丰富了数据集的实用性。
特点
MSVS-1M数据集以其真实性和挑战性著称,涵盖了街景中常见的光照变化、语义多样性和相机姿态噪声等复杂场景。与合成数据集MSN相比,MSVS-1M包含了更多真实世界的不连续性场景和瞬时物体,如车辆和行人,为模型提供了更具挑战性的测试环境。数据集的图像分辨率高,且每个场景包含多个连续视角,支持多视角合成任务。此外,数据集的公开许可(CC-BY-SA)确保了其可广泛用于学术研究和工业应用。
使用方法
MSVS-1M数据集主要用于训练和评估新颖视角合成模型,如ERUPT。在使用时,研究者可以动态采样输入和目标视角,模拟真实场景中的视角变化。数据集支持直接加载和预处理,便于集成到现有训练流程中。对于评估,建议使用标准指标如PSNR、SSIM、LPIPS和FID,以全面衡量模型性能。此外,数据集的连续场景序列可用于测试模型在长序列视角合成中的一致性,为真实世界应用提供可靠基准。
背景与挑战
背景概述
MSVS-1M数据集由BlueHalo和卡内基梅隆大学的研究团队于2025年提出,旨在解决真实场景中基于稀疏RGB图像的新视角合成问题。该数据集基于Mapillary的街景图像构建,包含约100万张图像,覆盖10个地理区域的32,000个连续场景序列。作为首个公开的大规模真实世界视角合成基准,MSVS-1M突破了传统合成数据集的局限性,为处理相机位姿噪声、光照变化和复杂场景多样性提供了重要研究平台。其创新性在于支持无位姿或噪声位姿条件下的场景重建,推动了ERUPT等先进模型的发展,显著降低了95%的标注数据需求。
当前挑战
MSVS-1M面临的核心挑战体现在两个方面:在领域问题层面,需解决真实场景中因相机位姿不精确、场景不连续和动态物体导致的视角合成质量下降问题,现有方法在盲区补全和多视角一致性保持上表现欠佳;在构建过程中,需处理原始街景数据的地理分布偏差、图像模糊及天气干扰,并通过动态采样策略平衡场景覆盖度与计算效率。尤其困难的是设计适用于无监督位姿估计的评估标准,这对传统依赖精确位姿的评估体系提出了革新要求。
常用场景
经典使用场景
MSVS-1M数据集作为街景图像合成的基准数据集,广泛应用于计算机视觉领域的新视角合成任务。其经典使用场景包括通过稀疏输入的RGB图像生成高质量的新视角图像,特别适用于街景重建和虚拟现实应用。数据集中的图像来自真实世界的街景,涵盖了多样化的环境和光照条件,为模型提供了丰富的训练素材。
实际应用
在实际应用中,MSVS-1M数据集被广泛用于自动驾驶、机器人导航和增强现实等领域。例如,自动驾驶系统可以利用该数据集生成的街景新视角图像进行环境感知和路径规划。此外,虚拟现实应用可以通过该数据集快速构建逼真的街景环境,提升用户体验。
衍生相关工作
MSVS-1M数据集衍生了多项经典工作,如ERUPT模型和基于扩散模型的渲染技术。ERUPT通过引入基于块的解码器和可学习的相机姿态估计,显著提升了新视角合成的效率和准确性。此外,该数据集还启发了多视角扩散模型的研究,进一步推动了街景图像合成技术的发展。
以上内容由遇见数据集搜集并总结生成



