Infinigen-Stereo

Name: Infinigen-Stereo
Creator: 普林斯顿大学
Published: 2025-04-24 01:59:33
License: 暂无描述

arXiv2025-04-24 更新2025-04-25 收录

下载链接：

https://github.com/princeton-vl/InfinigenStereo

下载链接

链接失效反馈

官方服务：

资源简介：

Infinigen-Stereo是一个专门为立体匹配优化的程序化数据集生成器。该数据集结合了现实室内场景与浮动物体的混合布局，生成了具有高质量地面真实值的立体图像。通过程序化生成技术，该数据集提供了无限的样本生成能力，可用于训练在零样本条件下具有强性能的立体匹配模型。

Infinigen-Stereo is a procedural dataset generator specifically optimized for stereo matching. This dataset combines hybrid layouts of realistic indoor scenes and floating objects to generate stereo images with high-quality ground truth. Through procedural generation technology, this dataset offers unlimited sample generation capabilities, which can be used to train stereo matching models with strong performance under zero-shot settings.

提供机构：

普林斯顿大学

创建时间：

2025-04-24

原始信息汇总

Infinigen-Stereo 数据集概述

数据集简介

名称: Infinigen-Stereo-150k
类型: 立体匹配训练数据集
用途: 专为零样本立体匹配性能优化的程序化数据集生成器

关键特性

程序化生成: 采用程序化方法生成数据集
规模: 包含150k样本

引用信息

bibtex @misc{yan2025proceduraldatasetgenerationzeroshot, title={Procedural Dataset Generation for Zero-Shot Stereo Matching}, author={David Yan and Alexander Raistrick and Jia Deng}, year={2025}, eprint={2504.16930}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.16930}, }

当前状态

生成器代码: 即将发布
数据集: 即将发布

搜集汇总

数据集介绍

构建方式

Infinigen-Stereo数据集通过程序化生成技术构建，旨在为零样本立体匹配任务提供高质量的合成数据。该数据集基于Infinigen和Blender Python API开发，通过高层次的API生成多样化的物体（如椅子、植物、楼梯等）和场景（如室内房间、自然场景或空白天空背景）。研究者还利用Blender API实现了多种新的场景排列生成器，特别设计了浮动物体放置接口，以优化立体匹配数据的效果。具体而言，该系统生成了三种不同的场景类型：室内浮动物体、密集浮动物体和自然场景。室内浮动物体场景通过在房间内随机放置物体来增加几何多样性；密集浮动物体场景在空场景中放置大量物体以最大化物体密度；自然场景则通过Infinigen Nature系统生成。

特点

Infinigen-Stereo数据集的特点在于其高度多样性和优化的程序化生成参数。该数据集通过系统研究程序化生成参数对零样本立体匹配性能的影响，确定了最佳参数配置。例如，研究发现结合了真实室内场景和浮动物体的混合布局在零样本泛化中表现最佳。此外，数据集还优化了计算成本，通过减少渲染样本数量和使用Blender的Optix去噪算法，显著降低了GPU渲染时间。数据集包含152,890个立体对，分为室内浮动物体（69,640对）、密集浮动物体（65,800对）和自然场景（17,450对）三类，覆盖了广泛的场景和物体类型。

使用方法

Infinigen-Stereo数据集的使用方法主要包括训练和评估立体匹配模型。研究者使用该数据集训练了RAFT-Stereo和DLNR等模型，并采用标准的训练流程和超参数。在训练过程中，数据集通过重新加权确保每种场景类型被均匀采样。评估时，模型在多个标准基准（如Middlebury、ETH3D、KITTI和Booster）上进行零样本测试，以验证其泛化能力。数据集的开放源代码允许用户生成无限量的样本，进一步支持定制化研究和应用。此外，数据集还提供了相机内参和外参、深度图、遮挡图以及物体和材质分割图，便于多任务学习和分析。

背景与挑战

背景概述

Infinigen-Stereo数据集由普林斯顿大学的David Yan、Alexander Raistrick和Jia Deng等人于2025年提出，旨在解决立体匹配任务中零样本泛化的关键问题。该数据集通过程序化生成方法，系统探索了合成数据在立体匹配中的设计空间，特别优化了场景布局、物体材质和光照条件等参数。作为首个针对零样本立体匹配优化的开源程序化生成器，Infinigen-Stereo通过结合逼真室内场景与浮动物体的混合布局，显著提升了模型在Middlebury、KITTI等基准测试上的性能，其生成的Infinigen-Stereo-150k数据集在零样本设定下错误率较现有最优方法降低39%，推动了计算机视觉领域对合成数据效用的认知边界。

当前挑战

该研究面临双重挑战：在领域问题层面，立体匹配网络难以处理高度反光/透明材质导致的像素级歧义，且传统合成数据与真实场景的域差距限制了零样本泛化能力；在构建过程中，需平衡场景真实性与计算效率，包括优化室内场景求解器耗时（从50.85分钟/场景缩减至13分钟）、降低光线追踪采样数（8192→1024样本）并引入去噪算法，同时解决程序化生成中薄壁物体和微观结构导致的深度标注噪声问题。此外，相机基线随机化范围的选取（0.04-0.4米）对跨尺度泛化能力产生关键影响，需通过大量实验验证不同参数组合对下游任务的影响。

常用场景

经典使用场景

在计算机视觉领域，立体匹配任务需要高质量的合成数据集来训练深度神经网络。Infinigen-Stereo通过程序化生成技术，构建了包含室内漂浮物体、密集漂浮物体和自然场景的多样化立体图像对。该数据集最经典的使用场景是作为零样本立体匹配模型的训练数据，研究人员可以直接使用其生成的15万组立体图像对来训练RAFT-Stereo等先进网络，无需任何真实数据微调即可在Middlebury、KITTI等标准测试集上取得优异性能。

衍生相关工作

该工作推动了程序化数据生成领域的发展，其基础架构衍生出多项创新研究。基于Infinigen的生成系统被扩展应用于动态场景建模，相关成果发表在CVPR等顶级会议。受其参数优化方法启发，后续研究提出了自适应光线追踪采样技术，将GPU渲染时间从3.37分钟/帧降至27秒。数据集公开后，已有团队将其与神经辐射场结合，开发出新型视频立体匹配网络Infinigen-SV。

数据集最近研究