ffs_stereo4d

Name: ffs_stereo4d
Creator: NVIDIA
Published: 2026-03-07 05:59:08
License: 暂无描述

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/nvidia/ffs_stereo4d

下载链接

链接失效反馈

官方服务：

资源简介：

FFS Stereo4D是一个用于立体匹配任务的视差图数据集，基于Stereo4D数据集并通过FoundationStereo生成。数据集包含784×784分辨率的3通道uint8 PNG格式视差图像，编码方式为`disp = (R * 255*255 + G * 255 + B) / 1000.0`。数据规模在10万到100万之间，以zip文件形式组织，每个zip包含50,000张图像。数据集还提供了metadata.csv文件，链接每张视差图像到其来源的YouTube视频，包含视频ID、时间戳、帧索引等元数据。由于版权限制，数据集仅包含视差图，用户需自行下载原始RGB帧。该数据集适用于立体匹配、深度估计等计算机视觉任务，并提供了详细的相机参数和深度计算公式。

FFS Stereo4D is a disparity map dataset for stereo matching tasks, developed based on the Stereo4D dataset and generated via FoundationStereo. The dataset contains 3-channel uint8 PNG format disparity images with a resolution of 784 × 784, encoded using the formula `disp = (R * 255*255 + G * 255 + B) / 1000.0`. The dataset has a scale ranging from 100,000 to 1,000,000 samples, and is organized in zip archive files, with each zip containing 50,000 images. The dataset also provides a metadata.csv file that links each disparity image to its source YouTube video, including metadata such as video ID, timestamp, frame index, etc. Due to copyright constraints, the dataset only includes disparity maps, and users are required to download the original RGB frames independently. This dataset is suitable for computer vision tasks such as stereo matching and depth estimation, and provides detailed camera parameters and depth calculation formulas.

提供机构：

NVIDIA

创建时间：

2026-03-06

原始信息汇总

FFS Stereo4D 数据集概述

基本信息

数据集名称：FFS Stereo4D
许可证：CC BY-NC 4.0
任务类别：深度估计
标签：立体匹配、视差、stereo4d、foundationstereo
数据规模：100K < n < 1M

数据集描述

该数据集包含用于立体匹配的视差图，这些视差图是使用 FoundationStereo 从 Stereo4D 数据集生成的。

数据集结构

数据存储在 data/train/ 目录下，包含：

metadata.csv 文件
多个 ZIP 文件（例如 0000000.zip、0000001.zip ... 0000025.zip），每个 ZIP 文件包含 50,000 张图像。

数据文件详情

视差图像：每个 ZIP 文件包含 PNG 格式的视差文件，文件命名格式为 {vid_id}_frame_{frame_idx:06d}.png。
- 图像格式：3 通道 uint8，分辨率为 784×784 的 PNG 文件。
- 编码方式：每个像素的视差值通过 disp = (R * 255*255 + G * 255 + B) / 1000.0 解码。
- 参考解码脚本：https://github.com/NVlabs/FoundationStereo/blob/master/scripts/vis_dataset.py
元数据文件：metadata.csv 文件将每张视差图像链接回其源 YouTube 视频，并通过 zip_file 列指示图像所在的 ZIP 文件。

元数据列说明

列名	描述
`file_name`	视差图像文件名（位于 ZIP 文件内）
`zip_file`	包含此图像的 ZIP 文件
`vid_id`	片段标识符（与 `.npz` 校准文件匹配）
`frame_idx`	校正后立体输出中的帧索引
`youtube_video_id`	源 360 视频的 YouTube 视频 ID
`timestamp_us`	原始视频中的时间戳（微秒）
`timestamp_sec`	时间戳（秒）
`video_frame_index`	原始视频中的估计帧号
`fps`	源视频的帧率

获取源 RGB 帧

该数据集仅包含视差图。由于视频版权原因，用户需自行下载对应的左右 RGB 立体图像对。恢复步骤如下：

使用 stereo4d toolkit 根据 youtube_video_id 下载 YouTube 视频。
定位到 timestamp_sec（或 video_frame_index）以找到源帧。
使用 Stereo4D 校准 .npz 文件进行等距柱面投影校正，以获得左右透视图像。

生成流程

源数据：来自 Stereo4D 数据集的 YouTube 360 视频。
校正：等距柱面帧被校正并裁剪为 1024×1024 的透视立体图像对。
视差估计：FoundationStereo 以 784×784 的分辨率（对 1024×1024 输入按 scale=0.765625 缩放）计算密集视差。

相机参数

校正后的立体图像对以 1024×1024 生成，采用以下针孔相机模型：

参数	值（1024×1024 校正后）	值（784×784 视差）	公式
HFOV	60°	60°	`output_hfov` in `batch_rectify.py`
Baseline	0.063 m	0.063 m	VR180 相机的假定瞳距
fx, fy	886.8 px	678.8 px	`size * 0.5 / tan(0.5 * HFOV * pi/180)`
cx, cy	512 px	392 px	图像中心

深度计算公式为：depth = fx * baseline / disparity。

由于视差是在 784×784 分辨率下计算的（缩放因子为 784/1024 = 0.765625），因此在将视差转换为深度时，请使用 784×784 的相机参数： python import numpy as np hfov = 60 # 度 baseline = 0.063 # 米 imw = 784 fx = imw * 0.5 / np.tan(0.5 * np.radians(hfov)) # 678.8 px depth = fx * baseline / disparity

引用

如果使用此数据集，请考虑引用： bibtex @article{wen2026fastfoundationstereo, title={Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching}, author={Bowen Wen and Shaurya Dewan and Stan Birchfield}, journal={CVPR}, year={2026} } @article{wen2025foundationstereo, title={FoundationStereo: Zero-Shot Stereo Matching}, author={Wen, Bowen and Trepte, Matthew and Aribido, Joseph and Kautz, Jan and Birchfield, Stan and Wan, Yao}, journal={CVPR}, year={2025} } @inproceedings{jin2025stereo4d, title={{Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos}}, author={Jin, Linyi and Tucker, Richard and Li, Zhengqi and Fouhey, David and Snavely, Noah and Holynski, Aleksander}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在立体视觉研究领域，FFS Stereo4D数据集通过系统化的流程构建而成。其源数据来自Stereo4D数据集中的YouTube 360度视频，首先对这些全景视频帧进行等距柱面校正，并裁剪为1024×1024分辨率的透视立体图像对。随后，利用先进的FoundationStereo模型，在缩放到784×784的分辨率上计算密集视差图。整个生成过程严格遵循了规范的相机参数模型，包括60度的水平视场角和0.063米的基线距离，确保了视差到深度转换的几何一致性。

特点

该数据集的核心特征在于其大规模与高质量的视差标注。它提供了超过数十万张视差图，覆盖了丰富的真实世界动态场景。视差数据以三通道PNG格式存储，通过特定的编码方式保存浮点数值，既保证了数据精度，又兼顾了存储效率。数据集结构清晰，每张视差图都通过详尽的元数据与原始视频片段、时间戳及相机参数精确关联，为研究提供了完整的上下文信息。然而，数据集仅包含视差图，对应的原始RGB立体图像对需用户依据指引自行从YouTube下载并校正获取。

使用方法

使用该数据集进行立体匹配或深度估计研究时，首要步骤是解析视差图。用户需按照提供的解码公式，将PNG文件的RGB通道值转换为浮点视差值。在进行深度计算或模型训练时，必须使用与784×784分辨率相匹配的相机内参，即焦距fx约为678.8像素。若需获取对应的左右视图RGB图像，用户需依据元数据中的YouTube视频ID和时间戳，利用Stereo4D工具包下载原始360视频，并执行等距柱面校正以生成透视立体对。这种分离的数据提供方式要求用户在遵守版权规定的前提下，自主完成部分数据预处理流程。

背景与挑战

背景概述

立体视觉作为计算机视觉的核心分支，旨在从多视角图像中恢复三维场景结构，其关键在于精确估计视差图。FFS Stereo4D数据集应运而生，由NVIDIA等研究机构于2025至2026年间构建，依托Stereo4D的互联网立体视频资源，并采用FoundationStereo先进模型生成密集视差标注。该数据集聚焦于零样本立体匹配这一前沿问题，旨在推动模型在未见过场景中的泛化能力，为三维重建、自动驾驶及虚拟现实等领域提供大规模、高质量的训练与评估基准，显著促进了立体匹配算法从依赖特定数据向通用感知的范式转变。

当前挑战

在立体匹配领域，核心挑战在于模型对未知场景的泛化能力与跨域适应性，传统方法往往受限于标注数据的稀缺与场景多样性不足。FFS Stereo4D数据集的构建过程亦面临多重困难：首先，源数据来自互联网360度视频，需处理复杂的版权问题与动态内容提取，确保数据合法性与可用性；其次，从原始视频到规整立体对的转换涉及繁琐的等距柱面投影校正与相机参数校准，任何几何失真都可能影响视差精度；最后，基于FoundationStereo的视差估计虽实现了自动化标注，但模型本身在复杂光照、遮挡及非朗伯表面下的误差仍需通过后处理与人工校验加以控制，以保障标注质量的一致性与可靠性。

常用场景

经典使用场景

在计算机视觉领域，立体匹配是三维场景理解的核心任务之一。FFS Stereo4D数据集通过提供大规模、高质量的视差图，为立体匹配算法的训练与评估奠定了坚实基础。该数据集源自Stereo4D的YouTube 360视频，经过FoundationStereo模型处理生成密集视差，其经典使用场景集中于推动零样本立体匹配技术的发展。研究人员可利用这些视差数据，在无需真实标注的情况下，训练模型以泛化至未见过的场景，从而提升立体匹配的鲁棒性和准确性。

衍生相关工作

FFS Stereo4D数据集的发布催生了多项经典研究工作，其中FoundationStereo系列模型尤为突出。这些工作专注于零样本立体匹配，利用大规模数据训练通用匹配器，实现了跨场景的泛化能力。此外，基于该数据集的改进算法进一步优化了视差估计的精度与效率，促进了实时立体匹配系统的发展。相关研究不仅扩展了立体匹配的应用边界，还为多视图几何、三维运动分析等方向提供了新的数据驱动范式。

数据集最近研究