TrafficScene

Name: TrafficScene
Creator: 清华大学深圳国际研究生院
Published: 2025-10-08 14:15:06
License: 暂无描述

arXiv2025-10-08 更新2025-10-10 收录

下载链接：

http://trafficscene.com/

下载链接

链接失效反馈

官方服务：

资源简介：

TrafficScene 数据集是首个将光场图像和激光雷达点云数据结合的语义分割数据集。它使用一个具有 30 厘米基线的 3x3 FLIR BFS-PGE 16S2C 相机阵列和 CH128X1 激光雷达在交通场景中收集数据，包含了 5607 张光场图像和 623 帧点云数据。每个点云帧包含超过 60,000 个点。所有光场视图都被校正并使用 CVAT 工具进行了 15 个语义类别的标注，这是首个在两个模态上都有对齐语义标签的多模态数据集。TrafficScene 数据集涵盖了五个典型的交通场景和五种常见的交通参与者，对于自动驾驶和智能交通系统具有重大价值。

The TrafficScene dataset is the first semantic segmentation dataset that combines light field images and LiDAR point cloud data. Data was collected in traffic scenarios using a 3x3 FLIR BFS-PGE 16S2C camera array with a 30 cm baseline and a CH128X1 LiDAR. The dataset contains 5,607 light field images and 623 point cloud frames. Each point cloud frame contains over 60,000 points. All light field views have been calibrated and annotated with 15 semantic categories using the CVAT tool. This is the first multimodal dataset with aligned semantic labels across both modalities. The TrafficScene dataset covers five typical traffic scenarios and five common traffic participants, which is of great value to autonomous driving and intelligent transportation systems.

提供机构：

清华大学深圳国际研究生院

创建时间：

2025-10-08

搜集汇总

数据集介绍

构建方式

在自动驾驶场景理解领域，TrafficScene数据集通过创新的多模态采集系统构建而成。该系统采用3×3相机阵列配合30厘米基线配置，结合CH128X1激光雷达同步采集数据，共获取5607帧光场图像与623帧点云数据。通过严格的标定流程确保空间对齐，所有光场视角均经过畸变校正并采用CVAT工具进行像素级标注，涵盖15类交通场景语义标签。点云数据通过投影映射与人工精修实现跨模态标签对齐，最终形成覆盖停车场、城市道路等五类典型场景的多模态语义分割数据集。

使用方法

该数据集支持端到端的多模态语义分割算法开发与验证。研究者在训练过程中可采用分层抽样策略按7:1:2比例划分训练集、验证集与测试集。针对光场分支，输入数据经随机翻转、色彩抖动等增强处理后，通过权重共享的HRNet-48网络提取多尺度特征。点云分支则通过体素化处理与稀疏卷积操作提取空间特征。关键创新点在于点-像素特征融合模块实现跨模态特征对齐，深度差异感知模块则利用深度先验增强遮挡物体识别。整体网络采用联合优化策略，通过图像分割损失与点云分割损失的加权组合实现多任务学习。

背景与挑战

背景概述

自动驾驶场景理解领域长期面临复杂环境下语义分割的精度瓶颈，传统单模态数据难以应对遮挡与光照变化的挑战。2025年由清华大学深圳国际研究生院团队发布的TrafficScene数据集，首次融合光场图像与激光雷达点云数据，通过3×3相机阵列与30厘米基线设计，实现了多视角光场全视角语义标注与点云数据的空间对齐。该数据集涵盖5607帧光场图像与623帧点云数据，包含15类交通场景语义标签，为多模态融合算法提供了首个具备完整视角标注的基准平台，显著推动了自动驾驶感知系统在复杂城市场景中的鲁棒性发展。

当前挑战

在语义分割任务中，该数据集致力于解决多模态数据融合中的两大核心难题：其一是光场图像与稀疏点云之间的特征密度失配问题，导致投影过程中的信息损失与融合效率降低；其二是遮挡场景下多模态数据互补机制不足，传统单视角成像难以捕捉被遮挡物体的完整空间信息。在构建过程中，团队需攻克多传感器时空标定精度保障、全视角语义标注一致性维护，以及大基线光场系统在动态交通场景下的数据同步采集等工程技术挑战。

常用场景

经典使用场景

在自动驾驶场景理解领域，TrafficScene数据集凭借其融合光场图像与激光雷达点云的多模态特性，为复杂交通环境下的语义分割任务提供了全新范式。该数据集通过3×3相机阵列捕获多视角光场数据，配合高精度激光雷达点云，构建了涵盖停车场、城市道路、植被道路等五类典型交通场景的标注样本，为研究多模态融合感知算法提供了理想实验平台。其独特的多视角标注机制使得模型能够充分利用视角间互补信息，显著提升了遮挡物体与小尺度目标的识别精度。

解决学术问题

该数据集有效解决了自动驾驶领域多模态语义分割中的三大核心难题：针对传统单视角图像在遮挡场景下的感知局限，通过光场多视角数据提供角度多样性补偿；针对激光雷达点云空间稀疏性问题，引入密集像素级光场特征进行空间信息补全；针对模态间特征对齐难题，设计了点云-像素特征融合插值模块。这些突破使得模型在遮挡物体分割任务中的mIoU指标较单模态方法提升达2.38，为多模态感知理论提供了重要实证基础。

实际应用

在实际智能交通系统中，TrafficScene支撑的算法已应用于城市级自动驾驶感知模块。其多模态融合架构显著提升了车辆在密集人流区域对突然出现的行人、非机动车的检测能力，特别是在雨雾天气下，光场数据对激光雷达的补充有效克服了单一传感器性能衰减问题。该技术已部署于智慧路口感知系统，通过实时解析复杂交通参与者的运动意图，为车辆决策规划提供厘米级精度的环境语义信息，切实提升了城市道路通行安全系数。

数据集最近研究