DrivingDojo
收藏arXiv2024-10-15 更新2024-10-16 收录
下载链接:
https://drivingdojo.github.io
下载链接
链接失效反馈官方服务:
资源简介:
DrivingDojo数据集由中国科学院自动化研究所模式识别新实验室、中国科学院大学人工智能学院、美团公司和中国科学院香港人工智能与机器人中心联合创建。该数据集包含18,000个视频片段,旨在模拟真实世界的视觉交互,涵盖了丰富的驾驶动作、多智能体交互和开放世界的驾驶知识。数据集的创建过程包括从数百万日常收集的视频中提取高度信息化的片段,并进行了精细的标注和分类。DrivingDojo数据集主要应用于自动驾驶领域,旨在提升世界模型在复杂驾驶环境中的预测和控制能力。
The DrivingDojo dataset was jointly created by the Pattern Recognition New Laboratory of the Institute of Automation, Chinese Academy of Sciences, the School of Artificial Intelligence, University of Chinese Academy of Sciences, Meituan, and the Hong Kong Institute of Artificial Intelligence and Robotics, Chinese Academy of Sciences. Comprising 18,000 video clips, this dataset is intended to simulate real-world visual interactions, covering a rich array of driving maneuvers, multi-agent interactions, and open-world driving knowledge. The dataset construction workflow includes extracting highly informative segments from millions of daily-collected videos, followed by meticulous annotation and classification. Primarily utilized in the autonomous driving domain, the DrivingDojo dataset aims to enhance the prediction and control capabilities of world models in complex driving environments.
提供机构:
中国科学院自动化研究所模式识别新实验室,中国科学院大学人工智能学院,美团公司,中国科学院香港人工智能与机器人中心
创建时间:
2024-10-15
搜集汇总
数据集介绍

构建方式
DrivingDojo数据集的构建基于大规模的日常驾驶视频,这些视频由美团的自动驾驶配送车辆平台收集,涵盖了多个中国主要城市。数据集的构建策略包括从安全检查员干预数据、自动紧急制动数据、随机抽取的30秒普通视频、特定场景选择(如交通灯变化、障碍物开启、左右转弯、直行穿越、车辆相遇、车道变更、行人互动)以及手动分类的罕见数据(如道路上移动和静止的外来物体、浮动障碍物、掉落和滚动物体)中提取高度信息丰富的片段。通过这些策略,DrivingDojo数据集确保了数据的多样性和平衡的自我行动及多代理互动分布。
特点
DrivingDojo数据集的显著特点在于其视频片段包含了完整的驾驶操作、多代理互动和丰富的开放世界驾驶知识。数据集分为三个子集:DrivingDojo-Action专注于丰富的自我行动,DrivingDojo-Interplay侧重于多代理互动,而DrivingDojo-Open则强调开放世界驾驶知识。这些特点使得DrivingDojo成为研究驾驶世界模型的卓越平台,能够全面捕捉真实世界驾驶场景的复杂性。
使用方法
DrivingDojo数据集主要用于训练和评估驾驶世界模型,特别是在动作指令跟随(AIF)任务中。研究者可以使用该数据集来开发和测试模型在不同驾驶操作和多代理互动场景下的表现。数据集的开放世界知识子集还为模型提供了处理罕见和复杂驾驶情况的能力。通过定义的AIF基准,研究者可以评估模型在视觉和结构保真度方面的性能,确保生成的视频在动作条件下的未来预测具有高度的可控性和准确性。
背景与挑战
背景概述
DrivingDojo数据集由自动化研究所、中国科学院、中国科学院大学、美团公司和香港智能系统研究中心联合开发,旨在推动自动驾驶领域中交互式和知识丰富世界模型的研究。该数据集于2024年发布,主要研究人员包括Yuqi Wang、Ke Cheng、Jiawei He等。DrivingDojo数据集通过收集和处理大量真实驾驶视频,涵盖了丰富的自我驾驶动作、多智能体交互和开放世界驾驶知识,为未来世界模型的发展奠定了基础。其核心研究问题在于如何通过数据集中的多样化视频内容,提升世界模型在复杂驾驶环境中的预测和控制能力。
当前挑战
DrivingDojo数据集面临的挑战主要包括两个方面:一是解决领域问题,即如何通过数据集中的多样化视频内容,提升世界模型在复杂驾驶环境中的预测和控制能力;二是数据集构建过程中遇到的挑战,如数据多样性的确保、多智能体交互的平衡以及开放世界知识的丰富性。此外,数据集中涉及的隐私保护和信息安全问题也是构建过程中需要克服的重要挑战。
常用场景
经典使用场景
DrivingDojo数据集的经典使用场景主要集中在训练交互式和知识丰富的驾驶世界模型。该数据集通过提供包含完整驾驶操作、多智能体交互和丰富开放世界知识的视频片段,为未来世界模型的发展奠定了基础。具体而言,DrivingDojo数据集特别适用于生成受动作控制的未来预测,通过定义动作指令跟随(AIF)基准,展示了其在生成动作控制的未来预测方面的优越性。
实际应用
在实际应用中,DrivingDojo数据集为自动驾驶系统的开发和测试提供了宝贵的资源。通过模拟真实世界的视觉交互,该数据集能够帮助研究人员和工程师开发和验证自动驾驶算法,特别是在处理复杂的驾驶操作和多智能体交互方面。此外,DrivingDojo数据集还包含了罕见事件的视频,这些数据对于提高自动驾驶系统在极端情况下的安全性和可靠性至关重要。
衍生相关工作
DrivingDojo数据集的引入催生了一系列相关研究工作。例如,基于该数据集的研究已经提出了新的动作指令跟随(AIF)基准,并展示了其在视频生成和动作指令跟随任务中的优越性能。此外,DrivingDojo还激发了对世界模型在自动驾驶领域应用的深入研究,包括生成高保真视频和模拟复杂驾驶场景的能力。这些研究不仅推动了自动驾驶技术的发展,也为其他领域的世界模型研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



