StaDy4D
收藏StaDy4D 数据集概述
数据集简介
StaDy4D (Static vs Dynamic 4D) 是一个基于 CARLA 0.9.16 模拟器构建的数据集,其核心特点是成对提供静态环境及其对应的动态场景。每个相机扫描序列均捕获(1)空地图和(2)在相同轨迹上添加交通参与者后的世界。每一帧都配有度量准确的RGB-D数据、相机位姿以及可直接使用的MP4视频,使得该数据集适用于场景理解、4D重建和生成模型研究。
关键数据概览
- 地图数量:12个CARLA城镇(Town01–Town07, Town10HD, Town11–Town13, Town15)。
- 序列数量:每个地图20个视频,共240条轨迹,每条轨迹均被记录两次(静态与动态)。
- 总帧数:每个场景为15秒、10 FPS的片段(200帧),总计96,000个帧对。
- 相机行为:包含6种真实轨迹(行车记录仪、无人机、屋顶环绕、十字路口、监控摄像头、行人视角),在数据集中自动循环使用。
- 数据模态:RGB图像、深度图、深度可视化图、逐帧相机内参/外参、视频级内参、元数据,以及静态和动态场景的RGB/深度MP4视频。
- 动态参与者:每个动态捕获场景包含80辆自动驾驶车辆和50个AI行人;静态捕获仅保留背景几何体。
数据内容与结构
文件夹布局
数据集遵循以下目录结构:
StaDy4D/ ├── TownXX/ # 每个CARLA地图一个文件夹 │ └── video_YY/ # 序列(成对的静态/动态场景) │ ├── metadata.json # 序列级元数据(帧率、轨迹类型、天气等) │ ├── intrinsic.json # 两个场景共享的相机内参 │ ├── static/ # 仅包含地图几何体的场景 │ │ ├── rgb/rgb_0000.png │ │ ├── depth/depth_0000.npy │ │ ├── depth_vis/depth_vis_0000.png │ │ ├── extrinsics/extrinsic_0000.npy │ │ └── intrinsics/intrinsic_0000.npy │ ├── dynamic/ # 包含车辆和行人的相同轨迹场景 │ │ └── ... # 结构与static/相同 │ ├── static_rgb.mp4 │ ├── static_depth.mp4 │ ├── dynamic_rgb.mp4 │ └── dynamic_depth.mp4 ├── sample/ # 随仓库提供的轻量样本子集 └── README.md
数据模态与格式说明
| 数据 | 路径模式 | 格式与单位 | 备注 |
|---|---|---|---|
| RGB帧 | `TownXX/video_YY/{static | dynamic}/rgb/rgb_XXXX.png` | 640×360 PNG (uint8, BGR顺序) |
| 深度图 | .../depth/depth_XXXX.npy |
float32 NumPy数组,单位为米(0–1000 m) | 无穷远被限制为1000 m。 |
| 深度可视化 | .../depth_vis/depth_vis_XXXX.png |
640×360 PNG (uint8) | 使用50 米窗口将深度映射到[0,255]以供定性查看。 |
| 相机外参 | .../extrinsics/extrinsic_XXXX.npy |
4×4 float64矩阵 | 相机到世界(c2w)变换,采用计算机视觉惯例(X向右,Y向下,Z向前)。 |
| 逐帧相机内参 | .../intrinsics/intrinsic_XXXX.npy |
3×3 float64矩阵 | 由帧的视场角导出,序列内相同,为方便而存储。 |
| 序列内参 | TownXX/video_YY/intrinsic.json |
JSON | 包含 fx,fy,cx,cy,width,height,fov_deg。 |
| 元数据 | TownXX/video_YY/metadata.json |
JSON | 记录地图、轨迹类型、帧率、帧数、天气和参与者数量。 |
| 视频 | TownXX/video_YY/static_rgb.mp4 等 |
MP4 (H.264, yuv420p) | 使用ffmpeg压缩,便于快速预览而无需解码PNG。 |
元数据字段
metadata.json 包含以下字段:
json
{
"map_name": "Town05",
"video_idx": 0,
"num_frames": 200,
"fps": 10,
"trajectory_type": "car_forward",
"resolution": {"width": 640, "height": 360},
"fov_deg": 70.0,
"n_vehicles": 80,
"n_walkers": 50,
"weather": "ClearNoon"
}
相同的值适用于序列的静态和动态两部分;仅世界中存在的参与者不同。
相机轨迹类型
每个视频循环使用以下一种行为(在 metadata.json → trajectory_type 中指定):
car_forward– 行车记录仪视角,高度约2.5 m,平缓转向,每帧移动约0.8 m。drone_forward– 低空无人机镜头(10–20 m),以约0.6 m/帧滑行并伴有轻微漂移。orbit_building– 30–40 m屋顶位置,平移120°而不移动。orbit_crossroad– 高处节点(3–5 m),在十字路口上平移约100°。cctv– 高屋顶上完全静态的摄像头,用于观察交通。pedestrian– 人眼视角(1.5–1.8 m),以1.5 m/s沿人行道漫步。
包含的CARLA地图
| 地图 | 描述 |
|---|---|
| Town01 | 紧凑的河畔小镇,带有弯道和桥梁。 |
| Town02 | 带有商店和广场的住宅区。 |
| Town03 | 密集的市中心,有摩天大楼和多车道道路。 |
| Town04 | 与高速公路环路相连的小镇。 |
| Town05 | 带立交桥的多层高速公路网络。 |
| Town06 | 低密度郊区布局,周围环绕森林。 |
| Town07 | 穿过乡村的乡村车道和急转弯。 |
| Town10HD | 带有宽阔林荫大道的市中心高清地图。 |
| Town11 | 充满工厂和仓库的工业区。 |
| Town12 | 带有农场的乡村住宅区。 |
| Town13 | 现代环岛和混合用途区。 |
| Town15 | 玻璃高层建筑和未来主义市中心街区。 |
数据获取方式
1. 快速样本
- 路径:
StaDy4D/sample - 内容:Town04/video_{00,01} 和 Town05/video_{00,01}(每个静态/动态场景约50帧)。
- 用途:完整性检查、单元测试和快速可视化,无需下载完整版本。
2. 完整版本
完整数据集托管在 Hugging Face:https://huggingface.co/datasets/henry000/StaDy4D。提供多种下载方式:
- Git LFS克隆:适用于下载全部内容。
- Hugging Face CLI:支持断点续传和部分下载。
- Python API:支持脚本化访问单个文件。
许可与引用
StaDy4D 继承 CARLA 模拟器对渲染内容的许可。在学术或商业工作中使用时,请同时注明 CARLA 和本数据集。引用详情将随附带的论文/预印本发布而添加。




