DAVE

Name: DAVE
Creator: 马里兰大学、弗吉尼亚大学、波士顿大学
Published: 2024-12-28 14:13:44
License: 暂无描述

arXiv2024-12-28 更新2025-01-02 收录

下载链接：

http://arxiv.org/abs/2412.20042v1

下载链接

链接失效反馈

官方服务：

资源简介：

DAVE数据集由马里兰大学等机构创建，旨在为复杂和不可预测环境中的感知方法提供评估基准，特别是针对易受伤害的道路使用者（VRUs）。该数据集包含1231个视频片段，涵盖了16种不同的参与者类别和16种动作类型，标注了超过1300万个边界框，其中160万个框同时标注了参与者身份和动作/行为细节。数据集视频基于多种因素收集，如天气条件、时间、道路场景和交通密度。DAVE数据集的应用领域包括自动驾驶、视频跟踪、检测、时空动作定位等，旨在解决现有数据集在复杂和不可预测环境中的不足，提升感知算法的鲁棒性和准确性。

The DAVE dataset was developed by institutions including the University of Maryland, aiming to provide an evaluation benchmark for perception methods in complex and unpredictable environments, especially for Vulnerable Road Users (VRUs). This dataset contains 1231 video clips, covering 16 distinct participant categories and 16 action types, with over 13 million bounding boxes annotated. Among these, 1.6 million boxes are simultaneously annotated with participant identity and action/behavior details. The videos in the dataset are collected based on multiple factors including weather conditions, time of day, road scenarios and traffic density. Application fields of the DAVE dataset include autonomous driving, video tracking, object detection, spatiotemporal action localization and more. It is designed to address the limitations of existing datasets in complex and unpredictable environments, and improve the robustness and accuracy of perception algorithms.

提供机构：

马里兰大学、弗吉尼亚大学、波士顿大学

创建时间：

2024-12-28

搜集汇总

数据集介绍

构建方式

DAVE数据集的构建过程基于对印度城市和郊区交通环境的广泛采集，涵盖了多样化的道路场景和复杂的交通行为。数据采集使用了高分辨率的车载摄像头，确保视频质量达到1920×1080像素，帧率为30帧/秒。视频内容涵盖了不同的天气条件、时间段和交通密度，以捕捉真实世界中的复杂性和不可预测性。数据集通过手动标注工具CVAT进行精细标注，包括超过1300万个边界框和160万个包含行为细节的标注，确保了数据的丰富性和准确性。

使用方法

DAVE数据集可用于多种视频识别任务的基准测试，包括目标跟踪、检测、时空行为定位、语言-视觉时刻检索和多标签视频行为识别。用户可以通过数据集提供的丰富标注信息，训练和评估模型在复杂交通环境中的表现。具体使用时，用户可以根据任务需求选择相应的标注数据，例如利用边界框进行目标检测，或结合行为标注进行时空行为定位。此外，数据集还支持基于自然语言查询的视频时刻检索，为模型的语言理解和视频理解能力提供了挑战性测试场景。

背景与挑战

背景概述

DAVE数据集由马里兰大学、弗吉尼亚大学和波士顿大学的研究团队于2024年提出，旨在解决自动驾驶感知系统在复杂和不可预测环境中的挑战。该数据集特别关注亚洲地区的高密度、非结构化交通场景，尤其是对易受伤害的道路使用者（VRUs）的高代表性。DAVE包含16种不同的参与者类别和16种动作类型，涵盖了超过1300万个边界框标注，其中160万个标注了参与者身份和动作细节。DAVE的构建基于多种因素，如天气条件、时间、道路场景和交通密度，能够用于多种视频任务，如目标跟踪、检测、时空动作定位、语言-视觉时刻检索和多标签视频动作识别。DAVE的推出为开发更敏感和准确的视觉感知算法提供了宝贵的资源，尤其是在复杂现实世界中的应用。

当前挑战

DAVE数据集在解决自动驾驶感知问题方面面临多重挑战。首先，现有数据集主要基于西方国家的结构化交通场景，难以推广到亚洲地区的高密度、非结构化交通环境。其次，DAVE在构建过程中面临数据采集和标注的复杂性，尤其是在处理多样化的参与者类别和复杂动作时，标注的精细度和准确性要求极高。此外，DAVE数据集中的场景复杂度较高，包括遮挡、不规则交通行为和多变的环境条件，这对感知模型的鲁棒性和泛化能力提出了更高的要求。最后，DAVE的丰富标注和多样场景为模型训练和评估提供了新的挑战，尤其是在时空动作定位和视频时刻检索等任务中，模型的性能显著下降，表明这些任务在复杂环境中的难度较大。

常用场景

经典使用场景

DAVE数据集在自动驾驶感知系统的开发与评估中具有重要应用，尤其是在复杂且不可预测的交通环境中。该数据集通过高密度的标注，涵盖了16种不同的参与者类别和16种动作类型，特别关注了易受伤害的道路使用者（VRUs），如行人、动物、摩托车和自行车等。DAVE数据集广泛应用于目标跟踪、检测、时空动作定位、视频时刻检索以及多标签视频动作识别等任务，为算法在真实世界中的表现提供了基准测试。

解决学术问题

DAVE数据集解决了现有交通视频数据集在亚洲复杂交通场景中的不足。现有数据集多基于西方国家的结构化交通环境，难以应对亚洲国家的高密度、非结构化和异质性交通场景。DAVE通过提供丰富的标注数据和多样化的交通场景，填补了这一空白，提升了自动驾驶感知算法在复杂环境中的泛化能力。该数据集特别强调对VRUs的高比例标注，有助于提高算法对这些易受伤害群体的识别精度，从而减少交通事故，提升道路安全。

实际应用

DAVE数据集在实际应用中为自动驾驶系统的开发提供了重要支持。通过模拟真实世界中的复杂交通场景，DAVE能够帮助自动驾驶车辆更好地识别和预测道路使用者的行为，尤其是在高密度交通和不可预测的环境中。此外，该数据集还可用于交通监控系统的开发，帮助城市管理者优化交通流量，减少交通事故。DAVE的广泛应用将推动自动驾驶技术在亚洲及其他复杂交通环境中的落地与普及。

数据集最近研究