Stereo4D dataset

github2025-03-13 更新2025-03-13 收录

下载链接：

https://github.com/Stereo4d/stereo4d-code

下载链接

链接失效反馈

官方服务：

资源简介：

Stereo4D数据集包含从立体视频中提取的动态点云数据，涉及立体视差和2D轨迹，将这些量融合到一致的3D坐标系中，并进行多次过滤操作以确保时间一致性和高质量的重建。

The Stereo4D Dataset consists of dynamic point cloud data extracted from stereo videos. It incorporates stereo disparity and 2D trajectories, which are fused into a unified 3D coordinate system, and undergoes multiple filtering operations to ensure temporal consistency and high-quality reconstruction.

创建时间：

2025-02-14

原始信息汇总

Stereo4D 数据集概述

数据集简介

Stereo4D 是一个从互联网立体视频中学习物体在3D中如何移动的数据集。该数据集通过处理立体视差和2D轨迹，将这些量融合到一个一致的3D坐标框架中，并执行多个过滤操作以确保时间上的一致性和高质量的重建。

数据集作者

Linyi Jin (Google DeepMind, University of Michigan)
Richard Tucker (Google DeepMind)
Zhengqi Li (Google DeepMind)
David Fouhey (New York University)
Noah Snavely (Google DeepMind)
Aleksander Hołyński (Google DeepMind, UC Berkeley)

数据集构成

视频ID、时间戳、相机姿态、3D轨迹、校正矩阵和视场边界等信息。
数据集注释存储在Google Storage Bucket中，遵循CC许可证。

数据处理流程

从指定时间戳提取帧并保存。
使用校正结果对球面视频进行校正。
将校正后的视频裁剪为60°视场视角的视频。
使用内部RAFT版本进行立体匹配，计算视差。
使用BootsTAP进行密集点轨迹提取。
过滤掉漂移的轨迹。
使用优化过程获得高质量的3D轨迹。

数据集下载

安装gcloud SDK以下载数据集。
示例视频下载：YouTube链接。

数据集引用

@article{jin2024stereo4d, title={Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos}, author={Jin, Linyi and Tucker, Richard and Li, Zhengqi and Fouhey, David and Snavely, Noah and Holynski, Aleksander}, journal={CVPR}, year={2025}, }

搜集汇总

数据集介绍

构建方式

Stereo4D数据集通过集成立体匹配、二维点轨迹跟踪以及三维轨迹优化等步骤，从互联网立体视频中学习三维动态信息。具体而言，该数据集首先对原始视频进行提取和校正，随后通过立体匹配计算视差，利用BootsTAP算法进行二维点轨迹的密集跟踪，并通过深度估计和优化过程将二维轨迹融合到三维坐标框架中，最终生成时间和空间上连贯的高质量三维重建。

特点

Stereo4D数据集的特点在于其创新地结合了互联网上的立体视频资源与先进的计算机视觉技术，实现了从视频数据到动态点云的转换。数据集提供了经过校正的立体视频帧、视差图、二维和三维轨迹等信息，并采用了一系列的后处理步骤来确保轨迹的稳定性和质量。此外，该数据集覆盖了多种场景和运动类型，为三维运动理解的研究提供了丰富的样本。

使用方法

使用Stereo4D数据集时，用户首先需要设置适当的环境并下载数据集。之后，用户可以按照提供的步骤对视频进行处理，包括视频校正、视差计算、点轨迹跟踪和轨迹优化等。数据集还提供了可视化工具，以便用户可以直接观察三维轨迹。此外，用户可以基于数据集提供的注释和API进行自定义的分析和模型训练。

背景与挑战

背景概述

Stereo4D数据集是一个旨在从互联网立体视频中学习三维动态的开放数据集。该数据集由Google DeepMind、University of Michigan、New York University和UC Berkeley的研究人员共同创建，并于CVPR 2025上发表。Stereo4D通过处理立体视差、二维轨迹跟踪等技术，将视频转换为动态点云，并在一个一致的3D坐标框架中融合这些信息，进而生成高质量的重建结果。该数据集的创建，为三维视觉领域提供了新的视角，并有望推动相关研究的深入发展。

当前挑战

Stereo4D数据集在构建过程中面临的挑战包括：1)如何从互联网上的立体视频中准确提取和利用动态信息，特别是在处理视频质量、分辨率和视角差异方面；2)如何有效融合立体视差和二维轨迹信息以生成高质量的3D重建结果；3)如何优化算法以减少3D轨迹在时间上的抖动和漂移，确保重建结果的准确性和稳定性。此外，数据集在标注和预处理过程中也面临诸多技术挑战，如视频的校正、视角转换和轨迹的优化等。

常用场景

经典使用场景

Stereo4D数据集广泛应用于三维动态场景的理解与重建。其经典使用场景在于，研究者通过该数据集学习互联网立体视频中的物体三维运动，进而对视频中的动态点云进行精确的重建，为后续的三维视觉任务提供基础数据支持。

衍生相关工作

基于Stereo4D数据集，衍生出了一系列相关研究工作，如改进的三维跟踪算法、动态场景的深度估计方法以及更加精确的运动模型。这些研究进一步拓宽了动态场景三维重建技术的应用范围，并促进了计算机视觉领域的发展。

数据集最近研究