five

nuScenes|自动驾驶数据集|视觉语言模型数据集

收藏
arXiv2025-02-27 更新2025-03-01 收录
自动驾驶
视觉语言模型
下载链接:
https://github.com/ZionGo6/VDT-Auto
下载链接
链接失效反馈
资源简介:
nuScenes数据集由莫斯科国立科技大学数字工程中心智能空间机器人实验室创建,是一个用于训练和微调视觉语言模型和自动驾驶系统的多模态数据集。该数据集包含了周围相机的图像,通过BEV编码器提取几何特征,并通过VLM模块提供情境信息。数据集经过处理后用于训练,以增强自动驾驶系统对复杂驾驶场景的解读能力。该数据集的应用领域是自动驾驶,旨在解决自动驾驶系统中的决策制定问题。
提供机构:
莫斯科国立科技大学数字工程中心智能空间机器人实验室
创建时间:
2025-02-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
nuScenes数据集构建采用了先进的视觉语言模型(VLM)和扩散Transformer技术。该数据集通过鸟瞰图(BEV)编码器从周围图像中提取特征网格,并结合VLM的精细调整,将结构化输出处理成文本嵌入和噪声路径。在扩散过程中,正向过程中的噪声添加是从VLM的噪声路径输出中采样的,而提取的BEV特征网格和嵌入文本则用于条件扩散Transformer的反向过程。
特点
nuScenes数据集的特点在于其综合了几何和语境信息,通过BEV编码器和VLM模块对环境进行解析。这种解析方式使得数据集能够提供丰富的环境特征和语境信息,有助于自动驾驶系统进行有效的决策和路径规划。此外,nuScenes数据集在nuScenes开放环规划评估中取得了平均0.52m的L2误差和21%的平均碰撞率,展现出良好的性能和泛化能力。
使用方法
使用nuScenes数据集时,首先需要对BEV编码器进行训练,以便从周围图像中提取BEV特征网格。然后,对VLM进行精细调整,以便从周围图像中获取语境信息。接下来,将BEV特征网格和VLM输出作为条件,输入到扩散Transformer中进行路径预测。最后,通过对比预测路径和真实路径,评估系统的性能和准确性。
背景与挑战
背景概述
自动驾驶技术领域,车辆在动态环境和复杂场景下的决策鲁棒性是一个关键挑战。为解决这一挑战,VDT-Auto数据集被创建,旨在通过视觉语言模型(VLM)引导的扩散Transformer来表示状态-动作映射。该数据集由Ziang Guo等人于2025年发表,主要研究人员来自俄罗斯莫斯科的Skolkovo理工学院智能空间机器人实验室。VDT-Auto数据集的核心研究问题是提高自动驾驶系统在复杂场景下的决策能力,通过结合VLM和扩散Transformer,实现对环境的几何和上下文解析。该数据集在自动驾驶领域具有重要的影响力,为解决自动驾驶中的决策问题提供了新的思路和方法。
当前挑战
VDT-Auto数据集在自动驾驶领域面临的主要挑战包括:1)解决自动驾驶中动态环境和复杂场景下的决策鲁棒性问题;2)构建过程中遇到的挑战,如数据收集、处理和标注等。自动驾驶的决策鲁棒性问题需要解决的是如何在复杂多变的场景中,车辆能够准确理解和预测周围环境,并做出安全有效的决策。而构建过程中的挑战则涉及数据的质量、数量和多样性,以及如何有效地标注和处理这些数据,以便训练出高性能的自动驾驶系统。
常用场景
经典使用场景
在自动驾驶领域,nuScenes数据集被广泛应用于模型训练和性能评估。其丰富的场景和多样化的传感器数据使得nuScenes成为自动驾驶系统开发中不可或缺的资源。通过对nuScenes数据集的深度学习和模型训练,研究者能够构建出更加鲁棒和智能的自动驾驶系统,从而提升车辆在复杂交通环境中的决策能力和安全性。
衍生相关工作
nuScenes数据集的引入衍生了大量的相关研究工作。例如,基于nuScenes数据集的自动驾驶模型训练和评估方法的研究,以及nuScenes数据集在自动驾驶汽车设计和开发中的应用研究等。这些相关研究工作不仅推动了自动驾驶技术的发展,还为自动驾驶汽车的安全性和可靠性提供了重要的支持。
数据集最近研究
最新研究方向
在自动驾驶领域,动态环境和边缘情况对自动驾驶车辆的决策鲁棒性提出了重大挑战。为了应对这些挑战,研究人员提出了VDT-Auto这一新型端到端自动驾驶范式。该范式利用视觉语言模型(VLM)在状态理解方面的最新进展,并结合基于扩散Transformer的动作生成,对环境进行几何和上下文的解析,以调节扩散过程。几何上,使用鸟瞰图(BEV)编码器从周围图像中提取特征网格;上下文上,将微调后的VLM的结构化输出处理成文本嵌入和噪声路径。在扩散过程中,正向过程添加的噪声从微调后的VLM的噪声路径输出中采样,而提取的BEV特征网格和嵌入的文本则调节扩散Transformer的逆向过程。VDT-Auto在nuScenes开放环规划评估中实现了0.52m的平均L2误差和21%的平均碰撞率,并在现实世界演示中展现了显著的泛化能力。该研究为自动驾驶领域的端到端决策学习提供了新的思路,有望推动该领域的发展。
相关研究论文
  • 1
    VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers莫斯科国立科技大学数字工程中心智能空间机器人实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录