StaDy4D

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/henry000/StaDy4D

下载链接

链接失效反馈

官方服务：

资源简介：

StaDy4D数据集：包含静态和动态环境配对的CARLA 0.9.16数据集，适用于场景理解、4D重建和生成模型研究。

创建时间：

2025-11-27

原始信息汇总

StaDy4D 数据集概述

数据集简介

StaDy4D (Static vs Dynamic 4D) 是一个基于 CARLA 0.9.16 模拟器构建的数据集，其核心特点是成对提供静态环境及其对应的动态场景。每个相机扫描序列均捕获（1）空地图和（2）在相同轨迹上添加交通参与者后的世界。每一帧都配有度量准确的RGB-D数据、相机位姿以及可直接使用的MP4视频，使得该数据集适用于场景理解、4D重建和生成模型研究。

关键数据概览

地图数量：12个CARLA城镇（Town01–Town07, Town10HD, Town11–Town13, Town15）。
序列数量：每个地图20个视频，共240条轨迹，每条轨迹均被记录两次（静态与动态）。
总帧数：每个场景为15秒、10 FPS的片段（200帧），总计96,000个帧对。
相机行为：包含6种真实轨迹（行车记录仪、无人机、屋顶环绕、十字路口、监控摄像头、行人视角），在数据集中自动循环使用。
数据模态：RGB图像、深度图、深度可视化图、逐帧相机内参/外参、视频级内参、元数据，以及静态和动态场景的RGB/深度MP4视频。
动态参与者：每个动态捕获场景包含80辆自动驾驶车辆和50个AI行人；静态捕获仅保留背景几何体。

数据内容与结构

文件夹布局

数据集遵循以下目录结构：

StaDy4D/ ├── TownXX/ # 每个CARLA地图一个文件夹 │ └── video_YY/ # 序列（成对的静态/动态场景） │ ├── metadata.json # 序列级元数据（帧率、轨迹类型、天气等） │ ├── intrinsic.json # 两个场景共享的相机内参 │ ├── static/ # 仅包含地图几何体的场景 │ │ ├── rgb/rgb_0000.png │ │ ├── depth/depth_0000.npy │ │ ├── depth_vis/depth_vis_0000.png │ │ ├── extrinsics/extrinsic_0000.npy │ │ └── intrinsics/intrinsic_0000.npy │ ├── dynamic/ # 包含车辆和行人的相同轨迹场景 │ │ └── ... # 结构与static/相同 │ ├── static_rgb.mp4 │ ├── static_depth.mp4 │ ├── dynamic_rgb.mp4 │ └── dynamic_depth.mp4 ├── sample/ # 随仓库提供的轻量样本子集 └── README.md

数据模态与格式说明

数据	路径模式	格式与单位	备注
RGB帧	`TownXX/video_YY/{static	dynamic}/rgb/rgb_XXXX.png`	640×360 PNG (uint8, BGR顺序)
深度图	`.../depth/depth_XXXX.npy`	float32 NumPy数组，单位为米（0–1000 m）	无穷远被限制为1000 m。
深度可视化	`.../depth_vis/depth_vis_XXXX.png`	640×360 PNG (uint8)	使用50 米窗口将深度映射到[0,255]以供定性查看。
相机外参	`.../extrinsics/extrinsic_XXXX.npy`	4×4 float64矩阵	相机到世界（c2w）变换，采用计算机视觉惯例（X向右，Y向下，Z向前）。
逐帧相机内参	`.../intrinsics/intrinsic_XXXX.npy`	3×3 float64矩阵	由帧的视场角导出，序列内相同，为方便而存储。
序列内参	`TownXX/video_YY/intrinsic.json`	JSON	包含 `fx`,`fy`,`cx`,`cy`,`width`,`height`,`fov_deg`。
元数据	`TownXX/video_YY/metadata.json`	JSON	记录地图、轨迹类型、帧率、帧数、天气和参与者数量。
视频	`TownXX/video_YY/static_rgb.mp4` 等	MP4 (H.264, yuv420p)	使用ffmpeg压缩，便于快速预览而无需解码PNG。

元数据字段

metadata.json 包含以下字段： json { "map_name": "Town05", "video_idx": 0, "num_frames": 200, "fps": 10, "trajectory_type": "car_forward", "resolution": {"width": 640, "height": 360}, "fov_deg": 70.0, "n_vehicles": 80, "n_walkers": 50, "weather": "ClearNoon" }

相同的值适用于序列的静态和动态两部分；仅世界中存在的参与者不同。

相机轨迹类型

每个视频循环使用以下一种行为（在 metadata.json → trajectory_type 中指定）：

car_forward – 行车记录仪视角，高度约2.5 m，平缓转向，每帧移动约0.8 m。
drone_forward – 低空无人机镜头（10–20 m），以约0.6 m/帧滑行并伴有轻微漂移。
orbit_building – 30–40 m屋顶位置，平移120°而不移动。
orbit_crossroad – 高处节点（3–5 m），在十字路口上平移约100°。
cctv – 高屋顶上完全静态的摄像头，用于观察交通。
pedestrian – 人眼视角（1.5–1.8 m），以1.5 m/s沿人行道漫步。

包含的CARLA地图

地图	描述
Town01	紧凑的河畔小镇，带有弯道和桥梁。
Town02	带有商店和广场的住宅区。
Town03	密集的市中心，有摩天大楼和多车道道路。
Town04	与高速公路环路相连的小镇。
Town05	带立交桥的多层高速公路网络。
Town06	低密度郊区布局，周围环绕森林。
Town07	穿过乡村的乡村车道和急转弯。
Town10HD	带有宽阔林荫大道的市中心高清地图。
Town11	充满工厂和仓库的工业区。
Town12	带有农场的乡村住宅区。
Town13	现代环岛和混合用途区。
Town15	玻璃高层建筑和未来主义市中心街区。

数据获取方式

1. 快速样本

路径：StaDy4D/sample
内容：Town04/video_{00,01} 和 Town05/video_{00,01}（每个静态/动态场景约50帧）。
用途：完整性检查、单元测试和快速可视化，无需下载完整版本。

2. 完整版本

完整数据集托管在 Hugging Face：https://huggingface.co/datasets/henry000/StaDy4D。提供多种下载方式：

Git LFS克隆：适用于下载全部内容。
Hugging Face CLI：支持断点续传和部分下载。
Python API：支持脚本化访问单个文件。

许可与引用

StaDy4D 继承 CARLA 模拟器对渲染内容的许可。在学术或商业工作中使用时，请同时注明 CARLA 和本数据集。引用详情将随附带的论文/预印本发布而添加。

搜集汇总

数据集介绍

构建方式

在自动驾驶仿真领域，StaDy4D数据集通过CARLA 0.9.16仿真平台精心构建，旨在提供静态环境与动态场景的精确配对。其构建过程采用系统化方法，在12个不同城镇地图中，每个地图生成20段视频序列，每段序列均以相同相机轨迹分别捕捉空载静态场景与注入交通动态元素的对应场景。数据采集以10帧每秒的速率持续15秒，累计生成96000帧配对图像，并同步记录度量准确的RGB-D数据、相机位姿及元信息，确保了场景对比的一致性与数据完整性。

特点

该数据集的核心特点在于其精心设计的静态与动态场景配对结构，为场景理解与生成建模研究提供了独特对比基础。其覆盖六种真实相机运动轨迹，包括车载视角、无人机航拍、建筑环绕及行人视角等，模拟了多样化的观测条件。数据模态丰富，不仅提供原始RGB图像与以米为单位的深度图，还包含相机内外参矩阵及可视化深度视频，所有数据均以标准化格式组织，便于直接用于算法开发与评估。

使用方法

研究人员可通过多种方式获取并使用StaDy4D数据集。完整数据集托管于Hugging Face平台，支持通过Git LFS克隆、Hugging Face CLI或Python API进行灵活下载，用户可根据需要选择全部或部分数据。数据集采用清晰的目录结构组织，每个城镇文件夹内包含以视频序列为单位的子目录，其中分别存放静态与动态场景的各类数据文件。加载数据时，用户可借助提供的元数据文件快速获取序列信息，并通过标准库如OpenCV和NumPy直接读取图像、深度图及位姿矩阵，进行三维重建或生成模型训练等任务。

背景与挑战

背景概述

StaDy4D数据集于2024年由研究人员基于CARLA 0.9.16仿真平台构建，旨在为场景理解、四维重建与生成建模研究提供高质量数据支持。该数据集通过配对静态环境与动态场景，系统性地捕捉了12个虚拟城镇中240条轨迹的RGB-D图像、相机位姿及多模态信息，核心研究问题聚焦于如何有效分离并分析动态元素对场景表征的影响，为自动驾驶与计算机视觉领域提供了基准数据，推动了动态环境下的感知与重建算法发展。

当前挑战

StaDy4D数据集致力于解决动态场景理解中的关键挑战，即如何准确区分静态背景与动态实体，以提升四维重建的鲁棒性与生成模型的真实性。在构建过程中，面临仿真环境与现实差异的校准难题，需确保深度数据的度量精确性与相机轨迹的多样性；同时，大规模数据生成涉及复杂的场景配置与自动化流程，需平衡动态演员数量与计算效率，以保障数据的一致性与可复现性。

常用场景

经典使用场景

在自动驾驶与计算机视觉领域，StaDy4D数据集通过提供静态环境与动态交通场景的精确配对，为场景理解与四维重建研究奠定了坚实基础。其核心价值在于每一帧都包含度量准确的RGB-D数据、相机位姿及视频流，使得研究者能够深入分析动态元素如何影响场景的几何与语义结构。该数据集支持从多视角轨迹（如车载摄像头、无人机航拍、行人视角等）捕捉复杂城市场景，为模型训练与验证提供了丰富且可控的仿真环境。

实际应用

在实际应用中，StaDy4D数据集为自动驾驶系统的仿真测试与算法验证提供了高效工具。其包含的多种相机轨迹与丰富动态元素（如80辆自动驾驶车辆与50名行人）能够模拟真实交通流，用于训练感知模型以识别动态障碍物、预测运动轨迹。此外，该数据集支持增强现实与虚拟现实领域的场景重建，通过提供精确的深度与位姿信息，助力开发沉浸式环境合成与交互系统，提升技术在复杂动态场景中的适用性与安全性。

衍生相关工作

基于StaDy4D数据集，学术界已衍生出一系列经典研究工作，主要集中在动态神经辐射场（Dynamic NeRF）与场景流估计领域。这些工作利用数据集的配对静态-动态序列，开发了能够分离静态几何与动态实体的四维重建模型，显著提升了场景编辑与视图合成的质量。此外，该数据集还促进了自动驾驶中的多目标跟踪与行为预测算法的创新，为仿真环境下的端到端系统评估提供了标准化基准，推动了相关技术在真实世界中的部署与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集