AnySplat
收藏arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://city-super.github.io/anysplat/
下载链接
链接失效反馈官方服务:
资源简介:
AnySplat是一个基于Transformer的神经网络,旨在从未校准的多视角图像中快速进行3D场景重建。它通过预测一组3D高斯基元来表示场景,并在单个前向传递中预测所有内容,无需相机校准或场景优化。该模型在稀疏和密集视图场景中均表现出卓越的性能,并大大减少了渲染延迟。AnySplat在九个多样化和大规模的数据集上进行了训练,以处理各种几何和外观变化。该模型无需3D标注即可进行训练,使其能够扩展到不受约束的捕获场景中。
AnySplat is a Transformer-based neural network designed for rapid 3D scene reconstruction from uncalibrated multi-view images. It represents scenes by predicting a set of 3D Gaussian primitives, and predicts all contents in a single forward pass without requiring camera calibration or scene optimization. The model exhibits superior performance in both sparse and dense view scenarios, and drastically reduces rendering latency. AnySplat is trained on nine diverse and large-scale datasets to handle various geometric and appearance variations. The model can be trained without 3D annotations, enabling it to scale to unconstrained captured scenes.
提供机构:
中国科学技术大学
创建时间:
2025-05-30
原始信息汇总
AnySplat数据集概述
数据集基本信息
- 名称: AnySplat
- 类型: 3D高斯泼溅(3D Gaussian Splatting)数据集
- 应用领域: 新颖视角合成(Novel-view synthesis)
- 开发团队:
- 中国科学技术大学
- 上海人工智能实验室
- 香港中文大学
- 布朗大学
- 上海交通大学
- 香港大学
数据集特点
- 输入要求: 未校准的图像集合(无需相机姿态标注)
- 输出内容:
- 3D高斯基元(编码场景几何和外观)
- 每张输入图像的相机内参和外参
- 技术优势:
- 单次前向传播完成预测
- 适用于稀疏和密集视角场景
- 实时新颖视角合成
方法概述
- 几何编码器: 基于Transformer的架构
- 解码器头:
- FG: 预测高斯参数(μ,σ,r,s,c)
- FD: 预测深度图D
- FC: 预测相机姿态p
- 处理流程:
- 构建像素级3D高斯
- 通过可微分体素化模块进行体素化
- 渲染多视角图像和深度图
评估场景
- 稀疏视角:
- Re10K (2 views)
- BungeeNeRF (8 views)
- DTU (8 views)
- LLFF (8 views)
- 密集视角:
- 32 views (MatrixCity/lerf/fillbusters/tnt)
- Eyefultower (64 views)
- KITTI-360/Horizon-GS/ZipNeRF (64 views)
对比基准
- 稀疏视角基线: FLARE, NoPoSplat
- 密集视角基线: 3DGS, MipSplatting
搜集汇总
数据集介绍

构建方式
AnySplat数据集的构建采用了前沿的3D高斯泼溅技术,通过前馈神经网络从无约束视角的图像集合中预测3D高斯原语和相机参数。该数据集利用几何变换器将多视角图像编码为高维特征,并通过可微分体素化模块优化高斯原语的冗余,显著提升了计算效率。训练过程中,结合了自监督知识蒸馏策略,从预训练的VGGT模型中提取几何先验,无需依赖3D标注数据,实现了在无标定图像上的高效训练。
特点
AnySplat数据集以其高效性和高质量渲染著称,能够在稀疏到密集的视角输入下生成一致的3D场景表示。其独特之处在于结合了前馈网络和优化技术的优势,实现了秒级的3D重建速度,同时保持了与优化方法相媲美的渲染质量。数据集覆盖了从室内到室外、从物体到城市场景的多样化数据,展现了强大的零样本泛化能力。此外,通过可微分体素化技术,显著减少了高斯原语的数量,降低了计算开销。
使用方法
使用AnySplat数据集时,用户只需提供无标定的多视角图像作为输入,模型即可通过单次前向传播预测3D高斯原语和相机参数。该数据集特别适用于实时新颖视角合成任务,支持从稀疏到密集的视角输入。对于需要更高精度的应用,可选择性地进行后优化步骤,通过少量迭代进一步细化重建结果。数据集的输出包括3D高斯参数、相机位姿以及全局点云图等,可直接用于下游的渲染和分析任务。
背景与挑战
背景概述
AnySplat是由上海人工智能实验室、中国科学技术大学、香港中文大学等机构的研究团队于2025年提出的创新性3D视觉数据集。该数据集专注于解决无约束视角下的3D高斯泼溅(3D Gaussian Splatting)重建问题,旨在实现从任意未标定图像集合中进行实时新颖视角合成的目标。AnySplat的提出标志着3D视觉领域从传统的需要精确相机标定和逐场景优化的神经渲染方法,向端到端前馈网络的范式转变。数据集通过融合几何先验与轻量级渲染头,在无需3D标注的情况下实现了高质量的场景重建,显著提升了在稀疏和密集视角场景下的零样本泛化能力。
当前挑战
AnySplat面临的核心挑战主要体现在两个方面:在领域问题层面,需要解决无标定多视角图像集合中的几何一致性问题,特别是在处理高度重叠输入时容易产生的错位重建;同时要平衡计算效率与渲染质量,实现从单视图到数百视图的实时3D重建。在构建过程层面,研究团队需要克服无3D标注情况下的自监督训练难题,开发可微分的体素化模块来有效管理密集视图下的计算复杂度,并通过创新的知识蒸馏策略从预训练模型中提取几何先验。此外,数据集还需处理动态场景和变化光照条件下的稳定性问题,这对模型的鲁棒性提出了更高要求。
常用场景
经典使用场景
AnySplat数据集在计算机视觉领域的新视角合成任务中展现出卓越的性能。该数据集通过无约束的多视角图像集合,实现了从稀疏到密集视图的快速3D场景重建。在经典使用场景中,AnySplat能够处理未经校准的图像输入,无需精确的相机姿态标注,即可生成高质量的3D高斯表示。这一特性使其在虚拟现实、增强现实和机器人导航等领域具有广泛的应用潜力。
实际应用
在实际应用场景中,AnySplat展现出强大的适应性。从室内场景重建到城市规模建模,该数据集支持从2D图像到即时可查看3D场景的快速转换。其处理未经校准图像的能力,特别适用于移动设备采集的日常照片,为文化遗产数字化、房地产可视化等应用提供了高效工具。
衍生相关工作
AnySplat的推出催生了一系列相关研究工作。基于其前馈3D高斯溅射框架,研究者们开发了如Scaffold-GS等结构化3D高斯表示方法。该数据集还启发了对无姿态图像处理的新探索,如NoPoSplat等研究进一步推动了无约束场景下的3D重建技术发展。
以上内容由遇见数据集搜集并总结生成



