doScenes
收藏arXiv2024-12-08 更新2024-12-11 收录
下载链接:
https://www.github.com/rossgreer/doScenes
下载链接
链接失效反馈官方服务:
资源简介:
doScenes是由加州大学默塞德分校的Machine Intelligence, Interaction, and Imagination Lab (Mi3)创建的一个新型自动驾驶数据集,旨在研究人机交互中的自然语言指令与车辆运动规划的结合。该数据集通过标注多模态传感器数据与自然语言指令,强调了短期的、直接影响车辆运动的指令,特别是针对静态和动态场景对象的指令。doScenes的创建过程结合了多模态数据(如传感器数据、车辆轨迹和地图信息)与人类交互指令,旨在解决现有数据集在模拟数据或预定义动作集上的局限性。该数据集的应用领域主要集中在自动驾驶中的安全驾驶、人机交互以及视觉语言动作模型的研究,旨在提升自动驾驶系统在真实世界场景中的适应性和灵活性。
doScenes is a novel autonomous driving dataset developed by the Machine Intelligence, Interaction, and Imagination Lab (Mi3) at the University of California, Merced. It aims to investigate the integration of natural language instructions and vehicle motion planning in human-vehicle interaction. This dataset is constructed by annotating multimodal sensor data alongside natural language instructions, with a focus on short-term instructions that directly influence vehicle movement, particularly those targeting static and dynamic scene objects. The creation of doScenes integrates multimodal data (including sensor data, vehicle trajectories, and map information) with human interaction instructions, aiming to address the limitations of existing datasets that rely on simulated data or predefined action sets. This dataset is primarily applied to research on safe driving, human-vehicle interaction, and vision-language action models in autonomous driving, with the goal of enhancing the adaptability and flexibility of autonomous driving systems in real-world scenarios.
提供机构:
加州大学默塞德分校
创建时间:
2024-12-08
搜集汇总
数据集介绍

构建方式
doScenes数据集通过结合nuScenes数据集的传感器数据和车辆轨迹,采用回溯式标注方法,为每个12秒的场景片段添加自然语言指令和指涉性标签。具体而言,研究团队通过回放nuScenes的1000个场景片段,模拟乘客视角,生成可能触发车辆行为的指令。每个场景由五名独立标注者进行标注,标注内容包括指令及其指涉性(静态对象、动态对象或两者兼有),确保指令与车辆行为的紧密关联。
特点
doScenes数据集的显著特点在于其专注于短期的、可操作的指令,这些指令直接关联到车辆的动态行为。与现有数据集不同,doScenes不仅提供了场景级别的理解,还强调了指令与具体对象的关联性,支持更细致的决策制定。此外,数据集通过标注指令的指涉性,帮助模型区分指令是否依赖于场景中的静态或动态对象,增强了数据集在实际驾驶场景中的适用性。
使用方法
doScenes数据集可用于训练和评估自动驾驶系统中的视觉-语言-动作模型,特别是那些需要处理自然语言指令并据此调整车辆行为的模型。研究者可以通过分析指令与车辆行为的关联,开发能够根据指令生成相应轨迹的模型。此外,数据集的指涉性标签为模型提供了区分静态和动态对象的能力,有助于提升模型在复杂环境中的适应性和鲁棒性。
背景与挑战
背景概述
随着自动驾驶技术的快速发展,人机交互在自动驾驶系统中的重要性日益凸显。doScenes数据集由加州大学默塞德分校的Machine Intelligence, Interaction, and Imagination Lab(Mi3)团队于2024年推出,旨在解决人类与自动驾驶车辆之间的指令交互问题。该数据集通过注释多模态传感器数据与自然语言指令,强调了短时指令对车辆运动规划的影响,填补了现有数据集在指令与驾驶响应之间联系的空白。doScenes不仅为研究者提供了丰富的多模态数据,还通过引入指令的指涉性标签,推动了自动驾驶系统在复杂场景中的灵活响应能力,为安全且高效的人车协作奠定了基础。
当前挑战
doScenes数据集在构建过程中面临多项挑战。首先,如何准确地将自然语言指令与车辆运动规划相结合,确保指令的执行性与上下文感知能力,是该数据集面临的核心问题。其次,数据集的构建依赖于对nuScenes数据进行回溯性注释,这种注释方式可能无法完全捕捉真实场景中的动态变化,尤其是在复杂的多步骤运动规划中。此外,数据集的指令注释依赖于人工标注,可能存在主观性和多样性问题,影响模型的泛化能力。最后,如何在实际驾驶场景中验证指令的有效性,尤其是在动态对象和静态对象混合的复杂环境中,仍是一个亟待解决的挑战。
常用场景
经典使用场景
doScenes数据集的经典使用场景主要集中在自动驾驶领域中的人机交互研究,特别是通过自然语言指令来影响车辆的行驶决策。该数据集通过标注多模态传感器数据与自然语言指令,使得研究者能够探索如何将人类的短时指令转化为车辆的实际行驶行为。例如,乘客可以通过语音或手势指令要求车辆在某处停车,或者消防员要求车辆让路,这些指令都直接关联到车辆的动态响应。
解决学术问题
doScenes数据集解决了自动驾驶领域中长期存在的几个学术问题,特别是如何在真实世界场景中实现人机交互指令的有效集成。传统的自动驾驶数据集往往依赖于模拟数据或预定义的动作集,而doScenes通过提供真实世界的传感器数据和自然语言指令,支持更加灵活和细致的响应策略。这不仅推动了自动驾驶系统的安全性,还促进了人机协作的有效性,为未来的智能交通系统奠定了基础。
衍生相关工作
doScenes数据集的发布激发了许多相关研究工作,特别是在自然语言处理与自动驾驶的交叉领域。例如,GPT-Driver框架通过将传感器数据和车辆状态转化为语言模型,实现了自动驾驶决策的可解释性。此外,DriveMLM和LMDrive等框架也借鉴了doScenes的理念,利用大规模语言模型来处理多模态数据,从而实现更加智能的自动驾驶决策。这些工作不仅扩展了doScenes的应用范围,还推动了自动驾驶技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



