Driver Gaze in the Wild (DGW)

Name: Driver Gaze in the Wild (DGW)
Creator: 莫纳什大学
Published: 2021-10-18 12:37:58
License: 暂无描述

arXiv2021-10-18 更新2024-06-21 收录

下载链接：

https://sites.google.com/view/drivergazeprediction/home

下载链接

链接失效反馈

官方服务：

资源简介：

Driver Gaze in the Wild (DGW)数据集是由莫纳什大学等机构创建的大规模驾驶员视线区域估计数据集。该数据集包含586个记录，涉及338名年龄在18至63岁之间的参与者。数据在不同光照条件下收集，以模拟真实世界情况。创建过程中，利用语音到文本转换技术自动标记数据，减少手动标记的需要。DGW数据集主要用于驾驶员注意力估计和视线预测，旨在提高驾驶辅助系统的性能，减少交通事故。

Driver Gaze in the Wild (DGW) dataset is a large-scale driver gaze zone estimation dataset developed by Monash University and other institutions. It consists of 586 recordings involving 338 participants aged from 18 to 63 years old. The data was collected under diverse lighting conditions to simulate real-world driving scenarios. During the dataset construction, speech-to-text conversion technology was employed to automatically annotate the data, minimizing the requirement for manual labeling. The DGW dataset is mainly applied to driver attention estimation and gaze prediction, with the goal of improving the performance of driver assistance systems and reducing traffic accidents.

提供机构：

莫纳什大学

创建时间：

2020-04-13

搜集汇总

数据集介绍

构建方式

在驾驶行为分析领域，数据标注的复杂性长期制约着大规模数据集的构建。Driver Gaze in the Wild (DGW) 数据集通过创新的语音引导范式实现了全自动标注。研究团队在车辆内部九个关键视觉区域粘贴数字标签，要求受试者依次注视并口头报出对应区域编号。采用微软LifeCam RGB摄像头采集视频，并同步录制音频。通过IBM Watson语音转文本（STT）API将语音信号转化为文本序列，依据数字关键词的时间戳自动关联对应视频帧。针对STT过程中因光照差异和口音多样性产生的噪声，进一步引入基于人声频率（300-3000Hz）和能量比分析的音频信号处理技术，有效恢复了约4000帧遗漏数据，最终构建了包含338位受试者、586段视频的大规模数据集。

使用方法

DGW数据集主要应用于驾驶注视区域估计模型的训练与评估。使用前需进行系统化的数据预处理：首先利用Dlib人脸检测库从原始视频帧中裁剪出224×224像素的面部区域；针对自动标注可能存在的过渡帧噪声，可采用基于自编码器潜在特征聚类的标签细化方法进行修正。研究者可基于该数据集构建卷积神经网络，推荐以Inception-V1为骨干网络，并在其前端集成光照鲁棒层以处理数据中的照明变异，后端引入注意力增强卷积模块以聚焦眼部关键特征。数据集已按受试者身份随机划分为训练集（203人）、验证集（83人）和测试集（52人），确保了跨身份泛化能力的评估。此外，该数据集学习到的特征表示可迁移至CAVE、TabletGaze等精细视线估计任务，通过微调网络全连接层实现跨领域应用。

背景与挑战

背景概述

在自动驾驶与智能汽车技术迅猛发展的背景下，驾驶员行为监测成为提升道路安全的关键研究方向。Driver Gaze in the Wild (DGW) 数据集由 Monash University、Indian Institute of Technology Ropar 等机构的研究团队于2021年创建，旨在解决驾驶员视线区域估计这一核心问题。该数据集通过引入语音到文本的自动标注技术，高效构建了包含338名参与者、586段视频的大规模资源，覆盖多种光照条件与真实驾驶场景，显著推动了基于计算机视觉的驾驶员注意力分析领域的发展，为高级驾驶辅助系统（ADAS）的研发提供了重要数据支撑。

当前挑战

DGW 数据集致力于解决驾驶员视线区域估计的挑战，该任务需在复杂车内环境中准确识别驾驶员注视的粗粒度区域（如挡风玻璃、后视镜等），以应对分心驾驶引发的安全隐患。构建过程中，研究团队面临两大难题：其一，自动标注依赖语音识别技术，但受参与者口音、光照变化等因素干扰，导致标注噪声；其二，数据采集需模拟真实驾驶条件，涵盖不同光照（如日光、夜晚灯光）和个体差异（如佩戴眼镜），这增加了数据一致性与模型泛化能力的难度。

常用场景

经典使用场景

在智能驾驶与高级驾驶辅助系统（ADAS）的研究领域，驾驶员视线区域估计是理解驾驶员注意力和认知状态的关键环节。Driver Gaze in the Wild (DGW) 数据集通过采集338名不同年龄、性别和光照条件下的驾驶员面部视频，为视线区域分类任务提供了大规模、多样化的真实世界数据。其最经典的使用场景是作为基准数据集，用于训练和评估基于计算机视觉的驾驶员视线区域估计算法，特别是在自然驾驶环境中处理光照变化、头部姿态与眼球运动的交互影响。

解决学术问题

该数据集有效解决了驾驶员监控研究中长期存在的若干难题。首先，它通过创新的语音转文本自动标注技术，克服了传统手动标注耗时费力且易出错的局限，显著提升了数据标注效率与规模。其次，数据集涵盖不同时段（包括夜晚）和多种光照条件，为开发光照鲁棒的视觉算法提供了关键测试平台。再者，其大规模、多参与者的特性支持了跨驾驶员泛化能力的研究，推动了从依赖侵入式传感器向非接触式、基于普通RGB摄像头的视线估计方法的范式转变。

实际应用

DGW数据集的实际应用直接指向提升道路安全。其催生的技术可集成于高级驾驶辅助系统中，用于实时监测驾驶员视线是否偏离道路（如长时间注视手机、仪表盘或侧窗），从而在驾驶员分心或疲劳时及时发出预警。此外，在自动驾驶车辆从自主模式向人工接管过渡的协作驾驶场景中，系统可依据驾驶员的视线方向判断其是否准备好接管控制。该数据集也为车内人机交互界面的设计与评估提供了数据基础，例如优化平视显示器信息的投放位置以匹配驾驶员自然视线习惯。

数据集最近研究