five

nuScenes

收藏
arXiv2025-02-27 更新2025-03-01 收录
下载链接:
https://github.com/ZionGo6/VDT-Auto
下载链接
链接失效反馈
官方服务:
资源简介:
nuScenes数据集由莫斯科国立科技大学数字工程中心智能空间机器人实验室创建,是一个用于训练和微调视觉语言模型和自动驾驶系统的多模态数据集。该数据集包含了周围相机的图像,通过BEV编码器提取几何特征,并通过VLM模块提供情境信息。数据集经过处理后用于训练,以增强自动驾驶系统对复杂驾驶场景的解读能力。该数据集的应用领域是自动驾驶,旨在解决自动驾驶系统中的决策制定问题。

The nuScenes dataset, created by the Intelligent Space Robotics Laboratory of the Digital Engineering Center at Moscow State University of Science and Technology, is a multimodal dataset for training and fine-tuning visual language models and autonomous driving systems. It includes images captured by surround-view cameras, extracts geometric features via BEV encoders, and delivers contextual information through VLM modules. The dataset has been preprocessed for training to enhance the capacity of autonomous driving systems to interpret complex driving scenarios. Its application domain focuses on autonomous driving, aiming to address decision-making problems within autonomous driving systems.
提供机构:
莫斯科国立科技大学数字工程中心智能空间机器人实验室
创建时间:
2025-02-27
搜集汇总
数据集介绍
main_image_url
构建方式
nuScenes数据集构建采用了先进的视觉语言模型(VLM)和扩散Transformer技术。该数据集通过鸟瞰图(BEV)编码器从周围图像中提取特征网格,并结合VLM的精细调整,将结构化输出处理成文本嵌入和噪声路径。在扩散过程中,正向过程中的噪声添加是从VLM的噪声路径输出中采样的,而提取的BEV特征网格和嵌入文本则用于条件扩散Transformer的反向过程。
特点
nuScenes数据集的特点在于其综合了几何和语境信息,通过BEV编码器和VLM模块对环境进行解析。这种解析方式使得数据集能够提供丰富的环境特征和语境信息,有助于自动驾驶系统进行有效的决策和路径规划。此外,nuScenes数据集在nuScenes开放环规划评估中取得了平均0.52m的L2误差和21%的平均碰撞率,展现出良好的性能和泛化能力。
使用方法
使用nuScenes数据集时,首先需要对BEV编码器进行训练,以便从周围图像中提取BEV特征网格。然后,对VLM进行精细调整,以便从周围图像中获取语境信息。接下来,将BEV特征网格和VLM输出作为条件,输入到扩散Transformer中进行路径预测。最后,通过对比预测路径和真实路径,评估系统的性能和准确性。
背景与挑战
背景概述
自动驾驶技术领域,车辆在动态环境和复杂场景下的决策鲁棒性是一个关键挑战。为解决这一挑战,VDT-Auto数据集被创建,旨在通过视觉语言模型(VLM)引导的扩散Transformer来表示状态-动作映射。该数据集由Ziang Guo等人于2025年发表,主要研究人员来自俄罗斯莫斯科的Skolkovo理工学院智能空间机器人实验室。VDT-Auto数据集的核心研究问题是提高自动驾驶系统在复杂场景下的决策能力,通过结合VLM和扩散Transformer,实现对环境的几何和上下文解析。该数据集在自动驾驶领域具有重要的影响力,为解决自动驾驶中的决策问题提供了新的思路和方法。
当前挑战
VDT-Auto数据集在自动驾驶领域面临的主要挑战包括:1)解决自动驾驶中动态环境和复杂场景下的决策鲁棒性问题;2)构建过程中遇到的挑战,如数据收集、处理和标注等。自动驾驶的决策鲁棒性问题需要解决的是如何在复杂多变的场景中,车辆能够准确理解和预测周围环境,并做出安全有效的决策。而构建过程中的挑战则涉及数据的质量、数量和多样性,以及如何有效地标注和处理这些数据,以便训练出高性能的自动驾驶系统。
常用场景
经典使用场景
在自动驾驶领域,nuScenes数据集被广泛应用于模型训练和性能评估。其丰富的场景和多样化的传感器数据使得nuScenes成为自动驾驶系统开发中不可或缺的资源。通过对nuScenes数据集的深度学习和模型训练,研究者能够构建出更加鲁棒和智能的自动驾驶系统,从而提升车辆在复杂交通环境中的决策能力和安全性。
衍生相关工作
nuScenes数据集的引入衍生了大量的相关研究工作。例如,基于nuScenes数据集的自动驾驶模型训练和评估方法的研究,以及nuScenes数据集在自动驾驶汽车设计和开发中的应用研究等。这些相关研究工作不仅推动了自动驾驶技术的发展,还为自动驾驶汽车的安全性和可靠性提供了重要的支持。
数据集最近研究
最新研究方向
在自动驾驶领域,动态环境和边缘情况对自动驾驶车辆的决策鲁棒性提出了重大挑战。为了应对这些挑战,研究人员提出了VDT-Auto这一新型端到端自动驾驶范式。该范式利用视觉语言模型(VLM)在状态理解方面的最新进展,并结合基于扩散Transformer的动作生成,对环境进行几何和上下文的解析,以调节扩散过程。几何上,使用鸟瞰图(BEV)编码器从周围图像中提取特征网格;上下文上,将微调后的VLM的结构化输出处理成文本嵌入和噪声路径。在扩散过程中,正向过程添加的噪声从微调后的VLM的噪声路径输出中采样,而提取的BEV特征网格和嵌入的文本则调节扩散Transformer的逆向过程。VDT-Auto在nuScenes开放环规划评估中实现了0.52m的平均L2误差和21%的平均碰撞率,并在现实世界演示中展现了显著的泛化能力。该研究为自动驾驶领域的端到端决策学习提供了新的思路,有望推动该领域的发展。
相关研究论文
  • 1
    VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers莫斯科国立科技大学数字工程中心智能空间机器人实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作