stereo-dataset

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/stereo-dataset-neurips2026/stereo-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Stereo Dataset (NeurIPS 2026) 是一个基于虚幻引擎渲染的合成多视角立体数据集。每个场景由地图、角色网格、动画片段、已验证的生成位置和相机轨迹组成。数据集包含同步的每相机RGB视频（`cam_XX_rgb.mp4`）、每相机深度视频（`cam_XX_depth.mkv`）以及场景级元数据（包括`_scene_complete.json`、`trajectory.json`和`baseline.json`）。数据集按分割（`train`、`eval`）和相机基线采样方式（`IPD_Gaussian`、`Uniform`和`Pairwise_Uniform`）组织，每种采样方式的基线值记录在`baseline.json`中。数据生成过程涉及选择地图、角色网格和动画资产，生成相机轨迹，并渲染同步的RGB和深度序列。数据集包含约6958个训练场景和554个评估场景，适用于深度估计任务。

Stereo Dataset (NeurIPS 2026) is a synthetic multi-view stereo dataset rendered based on Unreal Engine. Each scene consists of a map, character mesh, animation clip, verified generation positions, and camera trajectories. The dataset includes synchronized per-camera RGB videos (`cam_XX_rgb.mp4`), per-camera depth videos (`cam_XX_depth.mkv`), and scene-level metadata (including `_scene_complete.json`, `trajectory.json`, and `baseline.json`). The dataset is organized by splits (`train`, `eval`) and camera baseline sampling methods (`IPD_Gaussian`, `Uniform`, and `Pairwise_Uniform`), with the baseline values for each sampling method recorded in `baseline.json`. The data generation process involves selecting maps, character meshes, and animation assets, generating camera trajectories, and rendering synchronized RGB and depth sequences. The dataset contains approximately 6,958 training scenes and 554 evaluation scenes, suitable for depth estimation tasks.

创建时间：

2026-05-02

原始信息汇总

Stereo Dataset (NeurIPS 2026) 数据集概述

数据集简介

StereoDataset 是一个使用虚幻引擎（Unreal Engine）渲染的合成多视图立体数据集。每个场景包含地图、角色网格、动画片段、经过验证的生成位置和相机轨迹。

数据内容

每个场景文件夹包含15个文件：

RGB视频：6个相机的同步视频（cam_00_rgb.mp4 至 cam_05_rgb.mp4）
深度视频：6个相机的深度视频（cam_00_depth.mkv 至 cam_05_depth.mkv）
场景元数据：
- _scene_complete.json：场景完整性标记
- baseline.json：立体基线值及相机内参
- trajectory.json：每帧6相机位姿、角色及动画元数据

数据集划分

数据集按 训练集（train） 和 评估集（eval） 组织，并包含三种基线采样策略：

划分	采样策略	说明
train	`IPD_Gaussian`	16个地图
train	`Pairwise_Uniform`	10个地图
train	`Uniform`	18个地图
eval	`IPD_Gaussian`、`Uniform`	保留评估集

规模：约6958个训练场景、554个评估场景。每个场景的实际基线值存储在 baseline.json 中。

数据生成方式

数据从虚幻引擎地图资产生成：

为每个场景选择地图、角色网格和动画资源
将角色放置在验证过的生成位置
构建相机轨迹，实例化一个固定的6相机阵列
渲染所有相机的同步RGB和深度序列
导出原始每帧相机位姿、内参、场景标签、地图路径等
后处理转换为发布的元数据文件

许可证

CC-BY-4.0

搜集汇总

数据集介绍

构建方式

Stereo Dataset是一个利用虚幻引擎合成渲染的多视角立体数据集。构建流程首先从引擎地图资源中选取场景、角色网格与动画片段，并将角色放置于经过验证的生成位置；随后设计相机轨迹，部署一个包含六台相机的刚性相机阵列，同步渲染出每台相机的彩色视频与深度视频。生成过程中，引擎会输出原始逐帧相机姿态、内参及场景标签，后处理步骤将这些原始数据转换为标准化的元数据文件，包括轨迹文件、基线文件及场景完整标志。最终每个场景文件夹均包含六路同步视频、对应的深度流及完整的几何与语义描述。

特点

该数据集核心特点在于其系统化的基线采样策略与多相机同步机制。数据按训练与评估拆分，并依据基线分布分为三族：IPD_Gaussian模拟人眼瞳距的高斯分布、Uniform实现均匀覆盖、Pairwise_Uniform提供配对随机采样，单场景真实基线值记录于基线文件中。总计约7512个场景，来源涵盖多个虚幻引擎地图，每个场景提供六台相机的逐帧RGB与深度视频，以及详细的相机姿态、内参与场景元数据，为立体深度估计提供多样化的基线配置与高保真合成数据。

使用方法

使用该数据集时，首先根据任务需求选择适当的拆分与基线族子目录。每个场景文件夹内，彩色视频以cam_XX_rgb.mp4命名，深度视频以cam_XX_depth.mkv保存，同步帧索引对应即可读取多视角数据。元数据中trajectory.json提供六台相机逐帧位姿与角色/动画信息，baseline.json记录立体基线值与相机内参，_scene_complete.json确认场景完整性。研究人员可直接加载视频帧序列，结合元文件中的相机参数，用于立体匹配、深度估计或多视图三维重建等任务的训练与评估。

背景与挑战

背景概述

立体视觉与深度估计是计算机视觉领域的基础性任务，旨在从多视角图像中恢复场景的三维结构，广泛应用于自动驾驶、增强现实及机器人导航等领域。Stereo Dataset（NeurIPS 2026）是由研究人员基于Unreal Engine精心构建的大规模合成多视角立体数据集，旨在为立体匹配与深度估计提供高质量、多样化的训练与评估资源。该数据集创建于NeurIPS 2026会议前夕，核心研究问题是解决真实世界中立体基线多样性不足及标注成本高昂的困境，通过程序化生成涵盖多种基线采样策略（如高斯分布、均匀分布及成对均匀分布）的六相机刚体配置数据，显著推动了立体视觉模型在复杂场景下的泛化能力。其影响力在于为领域提供了一个标准化、可复现的基准，填补了合成数据在跨基线泛化研究中的空白。

当前挑战

Stereo Dataset所解决的领域问题核心在于立体视觉任务中基线参数的敏感性与真实数据稀缺性之间的鸿沟。实际应用中，相机基线变化剧烈，而现有数据集多依赖固定或有限基线配置，导致模型在未知基线场景中性能骤降。构建过程中面临诸多挑战：首先，需在虚幻引擎中精确模拟六相机刚体系统的几何一致性，确保每帧相机内参、外参及基线值的物理合理性；其次，场景生成需协调地图、角色网格、动画及可验证生成位置，并动态规划相机轨迹，防止渲染冲突；最后，后处理阶段需将原始姿态数据转化为标准化元数据（如trajectory.json和baseline.json），保证输出格式与学术研究兼容，同时控制数据规模在6958个训练场景与554个评估场景之间，平衡了数据丰度与计算开销。

常用场景

经典使用场景

Stereo Dataset 是一款专为立体视觉与深度估计任务设计的合成多视角数据集，基于虚幻引擎渲染生成。其经典使用场景聚焦于立体匹配与深度预测模型的训练与评估，通过提供六目相机同步拍摄的RGB视频与深度视频，以及精确的相机位姿、基线距离和内在参数，研究者可借助该数据集开展从传统立体匹配算法到端到端深度神经网络的验证工作。数据集中设置了三种基线采样策略（高斯分布型、均匀分布型与成对均匀型），能够模拟不同视差范围下的立体成像环境，从而支持对模型在多样化几何配置下的泛化能力进行系统性评测。借助合成的虚拟人物角色与动画片段，该数据集还兼顾了动态场景中的光流与遮挡建模，为动态立体视觉研究提供了理想的数据基础。

实际应用

在实际应用层面，Stereo Dataset 所模拟的刚性六目相机阵列与动态人物动画场景，紧密对应了增强现实（AR）、虚拟现实（VR）与机器人自主导航中的立体感知需求。例如，在头戴式显示器中，双目或多目相机系统被用于实时生成用户的深度图与三维场景建模，该数据集提供的不同基线分布设置可直接指导硬件设计与深度估计算法的选型。在自动驾驶与无人机避障领域，同步的多视图深度视频能够训练模型应对复杂光照与纹理缺失环境下的鲁棒深度预测，提升对障碍物距离进行估计的精确度。此外，合成角色与动画的引入拓展了该数据集在影视特效与游戏开发中的应用前景，为计算机视觉驱动的动作捕捉与场景重建提供了可靠的训练素材，加速了从学术研究到工程部署的转化进程。

衍生相关工作

围绕 Stereo Dataset，学术界已衍生出多项具有影响力的经典工作。在立体匹配领域，基于该数据集训练的深度学习模型推动了从传统成本聚合方法向注意力机制与Transformer架构演进，例如将视差回归与可变形卷积结合的立体网络。在多视图立体领域，研究者利用其六目相机配置探索了跨视角特征匹配与联合深度优化策略，产生了一系列名为‘深度立体特征融合网络’的代表性成果。该数据集同样成为自监督深度估计研究的基准，催生了利用时间一致性约束与光度损失训练的单目深度预测管线，克服了对真值标注的依赖。此外，在动态场景建模方面，结合该数据集中的动画片段，涌现出诸多关于运动与深度联合学习的开山之作，将人体姿态估计与时变深度场推断紧密结合，拓宽了计算机视觉在实时交互与全息显示中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集