road rage reasoning dataset

Name: road rage reasoning dataset
Creator: 电子科技大学
Published: 2025-03-14 20:18:11
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.11342v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由电子科技大学的研究团队创建的，包含81段真实世界的行车记录仪视频，总计2299帧，以及涉及道路愤怒事件的22226条详细标注。数据集旨在评估视觉语言模型在场景理解、事件识别和道路愤怒推理方面的能力，涵盖了道路环境描述、道路愤怒事件和场景的整体标签，以及每帧详细标签，包括车道数量、自我车辆和关键对象等。

This dataset was developed by a research team from the University of Electronic Science and Technology of China (UESTC). It comprises 81 real-world dashcam videos totaling 2299 frames, accompanied by 22,226 detailed annotations for road rage incidents. The dataset is designed to evaluate the performance of vision-language models (VLMs) in three key aspects: scene understanding, event recognition, and road rage reasoning. It includes holistic labels for road environment descriptions, road rage events and overall scenes, as well as per-frame detailed annotations covering the number of lanes, the ego vehicle, key objects and other relevant elements.

提供机构：

电子科技大学

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

该数据集的构建基于真实世界中的行车记录仪视频，涵盖了81个视频、2,299帧图像以及22,226条标注。数据集的构建过程包括视频的筛选、标注和分类。首先，研究人员从YouTube、Bilibili等平台手动筛选出能够引发愤怒、焦虑或紧张情绪的视频，确保视频内容包含危险驾驶、攻击性驾驶或阻碍性驾驶等行为。随后，视频被逐帧标注，标注内容包括环境描述（如天气、时间、道路类型等）以及对象描述（如车道数量、自车行为、关键对象行为等）。通过这一过程，数据集不仅提供了整体视频的标注，还详细标注了每一帧的关键信息。

特点

该数据集的特点在于其多模态标注的丰富性和细致性。每个视频不仅标注了整体环境描述和道路愤怒事件，还逐帧标注了车道数量、自车行为以及关键对象的行为和位置。这种多层次的标注方式使得数据集能够支持复杂的视觉语言模型（VLMs）任务，如场景理解、事件识别和道路愤怒推理。此外，数据集涵盖了多种道路愤怒场景，包括危险驾驶、攻击性驾驶和阻碍性驾驶，确保了数据集的多样性和广泛适用性。

使用方法

该数据集主要用于评估视觉语言模型（VLMs）在道路愤怒推理任务中的表现。通过输入行车记录仪视频，模型需要理解视频内容并识别出潜在的愤怒触发事件。数据集的使用方法包括三个主要任务：主任务要求模型从整体视频中识别出危险驾驶、攻击性驾驶和阻碍性驾驶；子任务1要求模型逐帧描述视频内容，评估其场景理解能力；子任务2则将视频标注转换为文本描述，要求模型基于文本进行事件识别和推理。通过这些任务，研究人员可以评估模型在视觉理解和文本推理方面的能力，并为后续的情绪调节任务提供先验知识。

背景与挑战

背景概述

Road Rage Reasoning Dataset（路怒推理数据集）由电子科技大学的Yibing Weng、Yu Gu和Fuji Ren等人于2025年提出，旨在通过视觉-语言模型（VLMs）解决路怒情绪的预测与干预问题。路怒情绪通常由交通拥堵、危险驾驶等外部刺激引发，严重影响道路安全。传统研究多集中于情绪抑制，缺乏对潜在触发事件的主动识别与干预能力。该数据集的提出填补了这一空白，通过结合视觉与语言模态，评估VLMs在场景理解、事件识别和路怒推理中的表现，为下游任务如情绪调节提供了基础支持。数据集包含81个视频、2299帧图像和22226个标注，涵盖了环境描述、路怒事件和场景推理等多个维度。

当前挑战

Road Rage Reasoning Dataset面临的主要挑战包括两个方面：首先，在领域问题方面，路怒情绪的触发事件复杂多样，涉及危险驾驶、攻击性驾驶和交通拥堵等多种场景，要求模型具备强大的多模态理解能力，尤其是对视觉场景中物体空间关系的精确推理。其次，在数据集构建过程中，标注的复杂性是一个显著挑战。数据集需要对每一帧图像进行详细的环境和物体描述，包括车道数量、自车行为、关键物体的位置和动作等，这对标注人员的专业性和一致性提出了极高要求。此外，如何确保标注数据的多样性和代表性，以覆盖真实驾驶环境中的各种路怒触发事件，也是构建过程中的一大难点。

常用场景

经典使用场景

Road Rage Reasoning Dataset 主要用于评估视觉-语言模型（VLMs）在驾驶场景中的理解与推理能力。通过提供来自行车记录仪的视频数据，该数据集被广泛应用于测试模型在场景理解、事件识别和路怒症推理任务中的表现。经典使用场景包括模型对危险驾驶、攻击性驾驶和道路拥堵等行为的识别与推理，旨在为后续的情绪调节任务提供先验知识。

解决学术问题

该数据集解决了当前研究中路怒症情绪调节的主动预防能力不足的问题。传统研究多集中于情绪爆发后的抑制手段，而该数据集通过视觉-语言模型的推理能力，能够提前识别潜在的触发事件，从而在情绪爆发前进行干预。这一突破为路怒症的主动调节提供了新的研究方向，推动了驾驶环境中的情绪管理与安全驾驶技术的发展。

衍生相关工作

该数据集衍生了一系列与驾驶场景理解和情绪调节相关的研究工作。例如，基于该数据集的视觉-语言模型微调研究，提升了模型在复杂驾驶场景中的推理能力。此外，该数据集还推动了多模态情绪调节策略的开发，如结合对话系统和环境感知的干预方法。这些衍生工作进一步拓展了智能驾驶系统中情绪管理的技术边界，为未来的研究提供了丰富的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集