UrbanTwin
收藏arXiv2025-09-08 更新2025-09-10 收录
下载链接:
https://arxiv.org/abs/2509.06781v1
下载链接
链接失效反馈官方服务:
资源简介:
UrbanTwin数据集是美国中央佛罗里达大学研究人员创建的一系列高保真、逼真的路边激光雷达数据集的副本,包括LUMPI、V2X-Real-IC和TUMTraf-I。每个UrbanTwin数据集包含10,000个带注释的帧,对应于一个公开数据集,注释包括3D边界框、实例分割标签、六个对象类的跟踪ID以及九个类的语义分割标签。这些数据集是通过在基于周围几何、车道级别的道路对齐以及每个实际数据集对应地点的交叉口的车道拓扑和车辆运动模式的真实数字孪生中模拟激光雷达传感器生成的。由于精确的数字孪生建模,合成数据集与其真实对应物非常一致,为在3D目标检测、跟踪、语义和实例分割等任务上训练深度学习模型提供了强大的独立和增强价值。
The UrbanTwin dataset is a collection of high-fidelity, photorealistic replicas of roadside LiDAR datasets developed by researchers from the University of Central Florida, encompassing LUMPI, V2X-Real-IC, and TUMTraf-I. Each dataset within the UrbanTwin suite contains 10,000 annotated frames corresponding to one original public dataset, with annotations comprising 3D bounding boxes, instance segmentation labels, tracking IDs for six object categories, and semantic segmentation labels for nine categories. These datasets are generated by simulating LiDAR sensors within a realistic digital twin built on surrounding geometry, lane-level road alignment, as well as the lane topology and vehicle movement patterns of the intersection corresponding to the location of each real-world source dataset. Leveraging precise digital twin modeling, these synthetic datasets exhibit strong alignment with their real-world counterparts, delivering robust standalone and augmented value for training deep learning models on tasks including 3D object detection, tracking, semantic segmentation, and instance segmentation.
提供机构:
美国中央佛罗里达大学
创建时间:
2025-09-08
原始信息汇总
UrbanTwin数据集概述
数据集基本信息
- 标题:UrbanTwin: High-Fidelity Synthetic Replicas of Roadside Lidar Datasets
- 作者:Muhammad Shahbaz, Shaurya Agarwal
- 提交日期:2025年9月8日
- arXiv标识符:arXiv:2509.06781v1
- DOI:https://doi.org/10.48550/arXiv.2509.06781
数据集描述
UrbanTwin数据集是高保真、逼真的三个公开路边激光雷达数据集的合成副本:LUMPI、V2X-Real-IC和TUMTraf-I。每个UrbanTwin数据集包含10K标注帧,对应一个公共数据集。
标注信息
- 3D边界框:提供六种对象类别的3D边界框标注。
- 实例分割标签:提供六种对象类别的实例分割标签。
- 跟踪ID:提供六种对象类别的跟踪ID。
- 语义分割标签:提供九种类别的语义分割标签。
合成方法
数据集通过模拟激光雷达传感器在逼真的数字孪生体中合成,基于周围几何形状、车道级道路对齐以及每个真实数据集对应实际位置的交叉口车道拓扑和车辆运动模式进行建模。
应用价值
- 训练深度学习模型:适用于3D目标检测、跟踪、语义分割和实例分割任务。
- 数据增强:提供独立的和增强的价值,增加样本量和场景多样性。
- 自定义场景测试:数字孪生体可适应修改模拟的设计和动态以测试自定义场景。
评估与性能
通过统计和结构相似性分析与真实数据对齐,并在合成数据上训练3D目标检测模型,在真实未见数据上测试,显示高相似性分数和改进的检测性能。
可用性
UrbanTwin数据集公开可用,访问地址:https://arxiv.org/abs/2509.06781v1
搜集汇总
数据集介绍

构建方式
UrbanTwin数据集通过高保真数字孪生技术构建,基于CARLA仿真平台对真实路边激光雷达场景进行精确建模。该过程整合了公开地理数据与卫星影像,精细还原道路几何结构、交叉口布局及传感器参数,包括激光雷达的通道数、角分辨率与视场范围。动态元素采用随机生成策略,模拟符合真实交通规则的车辆运动模式,确保合成点云在空间分布与物理特性上与原始数据高度一致。
特点
UrbanTwin涵盖三个子数据集,分别对应LUMPI、V2X-Real-IC与TUMTraf-I,各包含10,000帧标注数据。其特点包括六类目标(汽车、货车、自行车等)的3D边界框、实例分割标签与追踪ID,以及九类语义分割标注。合成数据在点密度、目标空间分布和场景复杂度方面与真实数据高度对齐,同时通过随机化交通流增强了场景多样性,为感知任务提供了丰富且一致的训练资源。
使用方法
该数据集支持3D目标检测、追踪、语义与实例分割任务,标注格式兼容OpenPCDet与SemanticKITTI标准。研究人员可直接将合成数据用于模型训练,并通过域适应技术迁移至真实场景测试。实验表明,仅使用UrbanTwin训练的检测模型在真实数据上表现优异,甚至超越基于真实数据训练的基准模型,验证了其作为独立训练集或数据增强工具的有效性。
背景与挑战
背景概述
UrbanTwin数据集由中佛罗里达大学Muhammad Shahbaz与Shaurya Agarwal团队于2025年提出,旨在解决智能交通系统中路边激光雷达感知算法训练数据稀缺的核心问题。该数据集通过高保真数字孪生技术,精确复现了LUMPI、V2X-Real-IC和TUMTraf-I三大真实路边激光雷达数据集的空间结构与动态特征,每个子集包含10,000帧标注数据,涵盖三维目标检测、跟踪及语义分割等多任务标注。其创新性在于首次实现了合成数据与真实数据在统计分布和结构特征上的高度对齐,为自动驾驶与车路协同感知研究提供了可扩展的高质量数据基础。
当前挑战
UrbanTwin需应对两大挑战:在领域问题层面,需克服真实路边激光雷达数据中因遮挡、复杂交通流和多样天气条件导致的目标检测与跟踪精度下降问题;在构建过程中,需精确建模真实场景的几何结构(如车道级道路特征、建筑植被布局)与动态行为(如交叉口车辆运动模式),同时匹配真实激光雷达的传感器参数(通道数、角分辨率等),以最小化仿真与真实数据间的域差异。此外,需通过随机化动态元素生成既保持真实性又增强多样性的数据,避免过度拟合特定场景。
常用场景
经典使用场景
在智能交通系统研究中,UrbanTwin数据集作为高保真合成激光雷达数据源,被广泛应用于路边感知算法的开发与验证。其经典使用场景包括三维目标检测、多目标跟踪以及语义与实例分割任务的模型训练,通过精确模拟真实道路几何结构与动态交通流,为深度学习模型提供与真实数据高度对齐的合成样本。
衍生相关工作
该数据集衍生了多个经典研究方向,包括基于数字孪生的仿真数据生成框架、Sim2Real领域自适应方法,以及多任务感知模型的联合训练策略。相关工作如SynLiDAR的生成对抗网络数据对齐技术、CoLiGen的反射率图像转换模型,均受其高保真合成理念启发,推动了激光雷达感知在仿真与真实域间迁移学习的技术进步。
数据集最近研究
最新研究方向
在智能交通系统领域,UrbanTwin数据集作为高保真路边激光雷达合成数据的创新代表,正推动感知算法的前沿探索。该数据集通过数字孪生技术精确复现真实场景的几何结构与动态行为,显著缩小了仿真与现实的域差异,为三维目标检测、多目标跟踪及语义分割等任务提供了高质量的标注数据。其合成数据在独立训练模型中展现出与真实数据相当甚至更优的性能,凸显了在降低数据采集成本、增强场景多样性方面的突破性意义。相关研究已延伸至协同感知、极端场景模拟等热点方向,为自动驾驶与车路协同系统的安全验证提供了可扩展的解决方案。
相关研究论文
- 1UrbanTwin: High-Fidelity Synthetic Replicas of Roadside Lidar Datasets美国中央佛罗里达大学 · 2025年
以上内容由遇见数据集搜集并总结生成



