eXplainable Driving Action Anticipation Dataset (DAAD-X)
收藏arXiv2025-10-10 更新2025-10-14 收录
下载链接:
http://link.to.dataset
下载链接
链接失效反馈官方服务:
资源简介:
DAAD-X数据集是一个多模态、以驾驶员为中心的视频数据集,旨在促进可解释的驾驶员意图预测研究。该数据集不仅包含驾驶操作,还提供了相应的解释,使模型能够预测驾驶员的行为并提供人类可理解的决策理由。数据集由IIIT Hyderabad和Politecnico di Torino共同创建,包含来自DAAD数据集的1568个视频片段,每个片段都有17个关于车辆本身的解释和15个关于驾驶员眼球的解释。数据集共包含2536个解释,涵盖了多种驾驶场景,如直行、转弯、变道、减速/停车和掉头等。该数据集有助于开发更安全、更可靠的自动驾驶系统。
DAAD-X dataset is a multimodal, driver-centric video dataset developed to advance research on interpretable driver intention prediction. This dataset not only encompasses driving maneuvers but also provides corresponding explanations, enabling models to predict driver behaviors and generate human-interpretable decision justifications. Co-created by IIIT Hyderabad and Politecnico di Torino, the dataset includes 1,568 video clips sourced from the original DAAD dataset. Each clip is annotated with 17 explanations regarding the vehicle itself and 15 explanations related to driver eye movements. In total, the dataset contains 2,536 explanations, covering a diverse set of driving scenarios including straight driving, turning, lane changing, deceleration/stopping, and U-turns, among others. This dataset supports the development of safer and more robust autonomous driving systems.
提供机构:
IIIT Hyderabad,India
创建时间:
2025-10-10
搜集汇总
数据集介绍
构建方式
在自动驾驶系统日益依赖深度学习的背景下,DAAD-X数据集通过精心筛选DAAD数据集中的1,568个多模态驾驶视频片段构建而成。这些视频片段时长介于7至15秒之间,涵盖了多样化的驾驶场景和天气条件。借助VIA视频标注工具,研究团队系统性地标注了17类车辆视角解释和15类驾驶员注视解释,形成层次化的因果推理框架,为驾驶决策提供可追溯的语义依据。
特点
DAAD-X的突出特征在于其融合了车内注视轨迹与车外环境感知的双重视角解释体系。该数据集不仅包含七类基础驾驶动作标签,更通过32类结构化解释构建了时空关联的语义网络。特别值得注意的是,其标注体系兼具空间定位与时间演进属性,例如“接近交叉路口”蕴含时序动态,“左侧车道畅通”则体现空间感知。这种多模态注解机制为可解释驾驶意图预测建立了细粒度的评估基准。
使用方法
该数据集适用于训练和验证视频概念瓶颈模型等可解释AI架构。研究人员可将双路视频输入分别编码为时空特征向量,通过可学习令牌融合模块提取语义聚类,最终在局部概念瓶颈层实现动作预测与解释生成的联合优化。典型应用流程包括多模态特征对齐、时空一致性聚类、以及基于标签锚点的特征可视化,这些方法共同支撑起驾驶决策透明化分析的技术闭环。
背景与挑战
背景概述
随着深度学习技术在自动驾驶领域的广泛应用,驾驶行为预测系统的可解释性已成为保障行车安全的关键挑战。2025年,由印度国际信息技术学院与意大利都灵理工大学联合研发的可解释驾驶行为预测数据集DAAD-X应运而生。该数据集基于多模态车载视频数据,创新性地融合了驾驶员眼动追踪与车辆外部环境信息,通过分层文本标注为驾驶决策提供因果解释。其核心研究目标在于突破传统黑盒模型的局限,构建能够同时预测驾驶行为并生成人类可理解解释的智能系统,为自动驾驶技术的人机互信奠定数据基础。
当前挑战
在驾驶意图预测领域,现有模型普遍面临时空特征与语义解释的割裂问题。DAAD-X构建过程中需克服多模态数据对齐的技术难点,包括眼动坐标与外部环境视频的时空同步、长尾分布的解释标注平衡等挑战。针对模型架构层面,传统卷积网络难以捕捉连续帧间的因果关联,而基于注意力的Transformer模型又存在特征扁平化导致的解释性缺失。此外,如何通过概念瓶颈模型将高维视频特征映射为符合人类认知的低维概念,同时保持时空一致性,成为实现可解释驾驶行为预测的核心技术壁垒。
常用场景
经典使用场景
在自动驾驶系统的开发过程中,DAAD-X数据集被广泛应用于驾驶员意图预测模型的训练与验证。该数据集通过融合驾驶舱内眼动追踪与车外环境视角的多模态视频数据,为模型提供了丰富的时空上下文信息。研究人员利用其层次化的文本解释标注,能够深入分析驾驶决策背后的因果逻辑,从而构建出既准确又可解释的预测系统。
衍生相关工作
基于DAAD-X数据集提出的视频概念瓶颈模型(VCBM)开创了时序可解释性研究的新方向。该框架通过可学习令牌合并与局部概念瓶颈模块,实现了时空一致的特征解耦。后续研究在此基础上发展了多标签t-SNE可视化技术,能够清晰呈现不同解释间的因果关系,为理解多模态视频中的决策逻辑提供了创新方法论。
数据集最近研究
最新研究方向
随着自动驾驶系统在复杂场景中应用日益广泛,驾驶意图预测的可解释性已成为保障行车安全的关键挑战。DAAD-X数据集通过融合多模态驾驶视频与层次化文本解释,开创性地构建了包含驾驶员眼动轨迹与车辆视角的因果推理框架,推动了可解释驾驶行为预测的前沿研究。当前研究聚焦于视频概念瓶颈模型(VCBM)的开发,该模型通过时空一致性特征提取与局部化概念解耦,实现了驾驶决策的透明化解释。Transformer架构凭借其卓越的时序建模能力,在生成可解释特征方面显著优于传统CNN模型,同时多标签t-SNE可视化技术进一步揭示了不同解释间的因果关联,为构建可信赖的自动驾驶系统提供了重要技术支撑。
相关研究论文
- 1Towards Safer and Understandable Driver Intention PredictionIIIT Hyderabad,India · 2025年
以上内容由遇见数据集搜集并总结生成



