five

simlingo

收藏
Hugging Face2025-05-26 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/RenzKa/simlingo
下载链接
链接失效反馈
官方服务:
资源简介:
SimLingo数据集是一个大型的自动驾驶数据集,包含用于自动驾驶的传感器数据、动作标签、模拟器状态信息和语言标签,这些标签适用于视觉问答、解说和指令跟随任务。数据集覆盖了38种复杂场景,包括城市交通、违反交通规则的参与者以及高速公路驾驶。数据集的结构是层次化的,主要包含原始传感器数据、驾驶决策的自然语言描述、指令跟随数据和基于DriveLM的VQA数据。

The SimLingo dataset is a large-scale autonomous driving dataset that contains sensor data, action labels, simulator state information, and language labels for autonomous driving-related tasks. These language labels are applicable to three core tasks: visual question answering, scenario narration, and instruction following. The dataset covers 38 complex scenarios, including urban traffic environments, traffic rule-violating road participants, and highway driving scenarios. It has a hierarchical structure, mainly consisting of raw sensor data, natural language descriptions of driving decisions, instruction following datasets, and DriveLM-based visual question answering (VQA) data.
创建时间:
2025-05-23
原始信息汇总

SimLingo数据集概述

数据集简介

  • 名称: SimLingo Dataset
  • 类型: 视觉问答、机器人技术
  • 语言: 英语
  • 标签: 自动驾驶、视觉问答(VQA)、评论、视觉语言动作(VLA)
  • 许可证: other

数据集统计

  • 规模: 3,308,315个样本
  • 场景多样性: 覆盖38种复杂场景,包括城市交通、违反交通规则的参与者、高速公路高速驾驶
  • 评估重点: 短路线,每条路线包含1个场景(62.1%)或3个场景(37.9%)

数据类型

  • RGB图像: 1024x512前视摄像头图像
  • 增强RGB图像: 1024x512前视摄像头图像,带有随机偏移和相机方向偏移
  • LiDAR点云: LAZ格式
  • 测量数据: 车辆状态、模拟器状态和传感器读数(JSON格式)
  • 边界框: 场景中每个物体的详细信息
  • 语言标注: 包括评论、指令跟随数据和VQA数据

数据集结构

  • data/: 原始传感器数据(RGB、LiDAR、测量数据、边界框)
  • commentary/: 驾驶决策的自然语言描述
  • dreamer/: 指令跟随数据,每个样本包含多个指令/动作对
  • drivelm/: 基于DriveLM的VQA数据

下载与使用

  • 完整下载: bash git clone https://huggingface.co/datasets/RenzKa/simlingo cd simlingo git lfs pull

  • 单文件下载: bash wget https://huggingface.co/datasets/RenzKa/simlingo/resolve/main/[filename].tar.gz

  • 解压: bash mkdir -p database/simlingo for file in *.tar.gz; do tar -xzf "$file" -C database/simlingo/ done

引用

bibtex @inproceedings{renz2025simlingo, title={SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment}, author={Renz, Katrin and Chen, Long and Arani, Elahe and Sinavski, Oleg}, booktitle={Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2025}, } @inproceedings{sima2024drivelm, title={DriveLM: Driving with Graph Visual Question Answering}, author={Chonghao Sima and Katrin Renz and Kashyap Chitta and Li Chen and Hanxue Zhang and Chengen Xie and Jens Beißwenger and Ping Luo and Andreas Geiger and Hongyang Li}, booktitle={European Conference on Computer Vision}, year={2024}, }

搜集汇总
数据集介绍
main_image_url
构建方式
SimLingo数据集作为自动驾驶领域的重要资源,其构建过程依托CARLA 2.0仿真平台,通过特权规则型专家系统PDM-Lite采集多模态驾驶数据。该数据集整合了传感器数据(包括1024x512分辨率的前视RGB图像、LiDAR点云)、车辆状态测量值、场景边界框标注以及三类语言标注(视觉问答、驾驶评论和指令跟随),覆盖38种复杂交通场景,总样本量达330万条。数据采集采用短路线设计,62.1%的路线聚焦单一场景,37.9%包含多场景组合,确保了对特定驾驶情境的深度覆盖。
特点
该数据集最显著的特点是实现了多模态数据与语言理解的深度融合。视觉方面提供标准及随机偏移角度的双版本前视图像,LiDAR数据采用LAZ格式存储,配合JSON格式的结构化测量数据,为自动驾驶算法提供立体感知基础。语言标注体系包含DriveLM衍生的视觉问答数据、驾驶决策自然语言评论以及多指令-动作对构成的交互数据,这种设计特别适合研究视觉-语言-动作的协同建模。数据组织采用分层结构,将原始传感器数据与三类语言标注明确分离,便于研究者针对性调用。
使用方法
研究者可通过Git LFS克隆整个仓库或使用wget下载特定压缩包。数据集采用分路由打包策略,建议通过命令行工具批量解压至统一目录。使用前需注意:RGB图像存在原始与增强双版本,LiDAR点云需专用工具处理,语言标注均以gzip压缩的JSON格式存储。该数据集兼容主流自动驾驶研究框架,特别适用于视觉语言对齐、闭环驾驶决策等研究方向。引用时需同时注明SimLingo主文献及基础框架DriveLM的发表成果。
背景与挑战
背景概述
SimLingo数据集由OpenDriveLab团队于2025年推出,旨在推动自动驾驶领域中视觉与语言协同理解的研究。该数据集基于CARLA 2.0仿真平台构建,整合了多模态传感器数据与语言标注,专注于解决自动驾驶中视觉问答(VQA)、指令跟随与决策解说等核心问题。其创新性在于首次将驾驶场景的实时感知数据与自然语言描述深度关联,为自动驾驶系统的可解释性研究提供了重要基准。数据集包含330万条样本,覆盖38类复杂交通场景,显著提升了自动驾驶模型在开放环境下的语义理解能力。
当前挑战
SimLingo数据集面临双重挑战:在领域问题层面,自动驾驶场景的视觉问答需克服动态环境中多目标检测、复杂事件因果推理等难题,而语言-动作对齐要求精确建模驾驶决策与自然语言描述的映射关系;在构建过程中,大规模多模态数据同步采集涉及传感器标定与时间对齐的技术瓶颈,语言标注则需平衡专业驾驶知识描述与自然语言表达的普适性。此外,仿真环境与真实场景的域差异也对数据有效性提出了严峻考验。
常用场景
经典使用场景
在自动驾驶研究领域,SimLingo数据集以其多模态数据融合特性成为视觉-语言-动作对齐任务的基准测试平台。该数据集通过整合高精度传感器数据与自然语言标注,为研究者提供了模拟复杂交通场景下驾驶决策分析的理想环境。其前视摄像头图像与激光雷达点云的时空对齐特性,尤其适合用于开发端到端的自动驾驶感知模型,以及验证视觉问答系统在动态驾驶场景中的推理能力。
解决学术问题
该数据集有效解决了自动驾驶研究中三大核心问题:多模态表征学习中的语义鸿沟问题,通过语言注释实现了驾驶决策的可解释性分析;复杂场景下的长尾分布挑战,其涵盖的38类特殊场景填补了常规数据集在异常交通状况方面的空白;同时为视觉语言预训练模型提供了高质量的监督信号,推动了DriveLM等框架在驾驶场景理解方面的突破性进展。
衍生相关工作
基于SimLingo衍生的研究已形成系列重要成果,DriveLM框架首次实现了驾驶场景的图结构视觉问答,其提出的时空推理范式被后续工作广泛借鉴。2025年CVPR最佳论文《Vision-Only Closed-Loop Driving》利用该数据集证明了纯视觉方案在语言引导下的闭环控制可行性,相关技术路线正逐步应用于L4级自动驾驶系统的开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作