SV2V-RSim

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/RainyWu/SV2V-RSim

下载链接

链接失效反馈

官方服务：

资源简介：

SV2V-RSim是一个全面的车对车（V2V）协同感知基准数据集，旨在推动V2V协同感知研究的发展。该数据集包含四个地图场景，涵盖四种不同的天气条件和从日出到夜晚的六个时间段，总计提供了203K LiDAR帧、402K RGB帧和788K标注的3D边界框，覆盖17个物体类别。数据集以其复杂的交通环境和高度动态的交通模式为特点，提供了更接近真实的渲染质量和精确的几何资产。SV2V-RSim支持多种下游任务，包括协同物体检测、深度估计和语义分割等。数据格式包括LiDAR点云、RGB图像、深度和语义标注信息，以及详细的JSON文件记录传感器位姿和实例信息。数据集还提供了数据处理脚本，用于深度和语义标注的解码，并支持OpenCOOD框架的数据加载。

SV2V-RSim is a comprehensive Vehicle-to-Vehicle (V2V) collaborative perception benchmark dataset designed to advance research in V2V collaborative perception. The dataset includes four map scenarios, covering four different weather conditions and six time periods from sunrise to night, providing a total of 203K LiDAR frames, 402K RGB frames, and 788K annotated 3D bounding boxes covering 17 object categories. The dataset is characterized by complex traffic environments and highly dynamic traffic patterns, offering near-realistic rendering quality and precise geometric assets. SV2V-RSim supports multiple downstream tasks, including collaborative object detection, depth estimation, and semantic segmentation. Data formats include LiDAR point clouds, RGB images, depth and semantic annotations, as well as detailed JSON files recording sensor poses and instance information. The dataset also provides data processing scripts for decoding depth and semantic annotations and supports data loading with the OpenCOOD framework.

创建时间：

2026-05-05

原始信息汇总

SV2V-RSim 数据集概述

基本信息

数据集名称: SV2V-RSim
用途: 面向自选择车车协同感知的综合基准数据集，支持协同目标检测、深度估计、语义分割等多类下游任务
发布状态: 已发布（2026年5月）

数据规模与特性

特性	数值
地图数量	4 张
天气条件	4 种不同天气
时间段	6 个（从日出到夜晚）
LiDAR 帧数	203K
RGB 帧数	402K
标注 3D 边界框数	788K
目标类别数	17 类

数据格式

目录结构

train/{scene_name}/{agent_id}/ ├── {timestamp}_{camera_name}DepthStencil.png # 深度模板渲染图像 ├── {timestamp}{camera_name}ObjectIdentifier.png # 目标标识渲染图像 ├── {timestamp}{camera_name}_RGB.jpeg # RGB图像 ├── {timestamp}.json # 传感器位姿及实例标注 └── {timestamp}.pcd # 激光雷达点云

JSON 标注文件内容

传感器位姿（世界坐标系下的朝向和位置）
当前智能体类型
标注信息：每个标注目标包含：
- 3D包围盒中心、尺寸、朝向
- 目标类别和资产名称
- 模板ID
- LiDAR可见性（基于3D框内点数判断）
- 每个相机的可见性信息（可见性标志、可见像素数、总像素数、可见2D框IoU）

数据处理工具

深度解码

脚本：scripts/depth_extract.py
输入：DepthStencil.png 图像
输出：
- *_depth_m.npy（浮点型深度图，单位米）
- *_depth_cm.png（16位PNG深度图，单位厘米）
- *_valid_mask.png（有效深度掩码）
- depth_manifest.csv（统计信息）

语义解码

脚本：semantic_extract.py
输入：帧前缀、相机名称
输出：
- *_semantic_id.png（语义ID图，像素值0-17）
- *_semantic_color.png（彩色语义分割图）
- *_overlay.png（RGB与语义分割叠加图）
- *_RGB.jpeg（复制的RGB图像）
- *_annotation_info.json（类别映射、模板/类型/类别ID、像素统计）

OpenCOOD 数据加载器

提供文件：intermediate_fusion_dataset_lv2v.py，支持在OpenCOOD框架下使用SV2V-RSim数据集

基准测试结果

检测基准基于 OpenCOOD 进行评估，不同模型的性能如下：

模型	AP_M@IoU 0.3	AP_M@IoU 0.5	AP_N@IoU 0.3	AP_N@IoU 0.5	AP_P@IoU 0.3	AP_P@IoU 0.5	AP_S@IoU 0.3	AP_S@IoU 0.5	带宽(MB)
No Fusion	32.6	28.7	19.2	12.7	3.3	0.6	5.7	3.2	0
Late Fusion	48.1	42.6	25.2	13.5	4.2	1.1	10.4	7.0	12.91
Early Fusion	57.9	56.0	30.9	23.7	4.9	1.5	13.9	8.1	25.54
F-Cooper	56.7	53.8	45.9	38.7	15.4	4.7	32.1	21.2	27.85
CoBEVT	57.9	55.6	52.4	44.3	23.3	12.7	43.2	30.2	28.85
Where2comm	62.9	60.7	37.3	25.6	13.7	3.7	25.3	12.0	26.72
SVA (ours)	65.2	62.6	49.5	38.2	21.8	11.3	41.3	27.6	25.53

待完成事项

[x] 数据集发布
[x] 数据处理脚本
[ ] 评估代码
[ ] 所有基于SV2V-RSim数据集的基准测试任务

搜集汇总

数据集介绍

构建方式

SV2V-RSim数据集基于近真实的仿真环境构建，覆盖四张不同地图，并整合了从日出到夜晚的六种时段与四种天气条件。数据采集过程中，每个场景均记录与自车交互的智能体传感器数据，包含LiDAR点云、RGB图像、深度掩码及语义标识图像。注释信息以JSON格式存储，详细标注了每个目标的3D边界框中心、尺寸、朝向、类别、资产名称及可见性信息，并提供了传感器在世界坐标系中的位姿。所有目标通过模板ID在渲染掩码中唯一标识，确保了标注的精确性和后续任务的可追溯性。

特点

该数据集包含203K帧LiDAR数据、402K帧RGB图像及788K个3D边界框注释，覆盖17个目标类别。其核心特点在于高真实感的渲染质量与精确的资产几何结构，超越了其他合成数据集。数据集支持多种下游任务，包括协同目标检测、深度估计与语义分割，且环境复杂度高，道路用户密度大，交通模式动态变化。此外，每帧数据均提供可见性像素统计与遮挡状态，为自选择性协同感知研究提供了丰富的评估基础。

使用方法

使用SV2V-RSim时，首先通过深度解码脚本（depth_extract.py）将DepthStencil图像转换为以米或厘米为单位的深度图及有效掩码。语义解码脚本（semantic_extract.py）则利用ObjectIdentifier图像与标注JSON生成语义ID图、彩色分割图及叠加图。数据集兼容OpenCOOD框架，提供中间融合数据加载器（intermediate_fusion_dataset_lv2v.py），便于快速集成协同感知算法。基准测试基于OpenCOOD实现，用户可直接加载数据并评估多类融合模型的检测性能。

背景与挑战

背景概述

SV2V-RSim数据集由清华大学等机构的研究团队于2026年5月发布，旨在解决车对车（V2V）协同感知领域中对高保真、多场景仿真数据集的迫切需求。该数据集横跨四张地图，涵盖四种天气条件与六个时段（从日出至夜晚），包含20.3万帧激光雷达数据、40.2万帧RGB图像以及78.8万个标注的3D边界框，覆盖17个物体类别。其核心研究问题在于构建一个兼具真实渲染质量与精确几何资产的基准，以推动V2V协同感知中目标检测、深度估计与语义分割等下游任务的算法评估与发展，对智能交通系统与自动驾驶技术的研究具有重要支撑作用。

当前挑战

SV2V-RSim所解决的领域问题在于：现有V2V协同感知数据集多基于理想化仿真或真实场景采集，前者缺乏真实感，后者受限于高标注成本与场景多样性不足，导致算法在复杂动态交通环境中的泛化能力受限。构建过程中面临的核心挑战包括：1）在多地图、多天气、多时段条件下生成高保真且几何一致的仿真数据，确保传感器模拟的物理准确性；2）处理高密度道路使用者与持续变化的交通模式，实现跨场景的精确3D标注与遮挡关系计算；3）设计高效的数据处理流程，以解码深度与语义掩码并支持OpenCOOD等现有框架的兼容性，降低算法迁移门槛。

常用场景

经典使用场景

SV2V-RSim数据集专为车对车（V2V）协同感知研究设计，其经典使用场景在于提供一个高保真、多样化的仿真环境，用于评估和训练协同感知模型。该数据集覆盖四张地图、四种天气条件及从日出到夜间的六个时段，包含20.3万帧激光雷达数据、40.2万帧RGB图像以及78.8万个标注的3D边界框，涵盖17个物体类别。如此丰富的场景配置，使得研究者能够在高密度交通流和动态变化的环境中，深入探索协同目标检测、深度估计与语义分割等下游任务，从而推动V2V协同感知领域基准的建立与优化。

解决学术问题

该数据集有效解决了真实世界V2V数据稀缺及合成数据渲染质量不足的学术瓶颈。现有真实数据集受限于采集成本与隐私约束，难以覆盖极端天气和复杂交通场景；而其他合成数据集往往在几何精度与视觉效果上存在缺陷。SV2V-RSim通过提供更逼真的渲染质量和精确的资产几何，为学术研究构建了一个可控、可复现的基准平台，使得研究者能够系统性地分析协同感知中信息融合策略的影响，量化不同天气和光照条件下的感知鲁棒性，进而推动协同感知理论从理想假设走向实际应用验证。

衍生相关工作

SV2V-RSim的出现催生了一系列相关研究工作。首先，它推动了协同感知框架如OpenCOOD的标准化评测，其中SVA（自选择性车辆协同）模型在该数据集上取得了领先性能，证明了自适应信息选择策略的有效性。其次，数据集提供的深度解码与语义标注脚本启发了多模态融合方法的发展，例如CoBEVT与Where2comm等模型在SV2V-RSim上进行了迁移与改进。此外，该数据集的高保真渲染特性也被用于生成对抗训练数据，以增强模型在域迁移场景下的泛化能力，进一步拓展了V2V感知研究的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集