Visual Question Answering (VQA) dataset for traffic scenarios

Name: Visual Question Answering (VQA) dataset for traffic scenarios
Creator: 日本金泽大学科学与工程学院
Published: 2025-05-05 15:18:47
License: 暂无描述

arXiv2025-05-05 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02413v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个针对交通场景的视觉问答数据集，用于评估任务导向的语义通信框架的有效性。论文中未提供数据集的具体条数和访问地址。

This dataset is a visual question answering (VQA) dataset focused on traffic scenarios, which is employed to evaluate the effectiveness of task-oriented semantic communication frameworks. The specific number of samples and the access address of this dataset are not provided in the paper.

提供机构：

日本金泽大学科学与工程学院

创建时间：

2025-05-05

搜集汇总

数据集介绍

构建方式

该数据集针对交通场景中的视觉问答任务构建，通过整合车载摄像头捕获的高分辨率图像与用户提出的自然语言问题，形成多模态数据对。研究团队采用分层采样策略，从公开高速公路数据集Figrim和互联网采集的41幅交通场景图像中，每幅图像匹配至少3个聚焦交通标志、信号灯等关键元素的问题，最终构建包含172个问答对的评估集。数据预处理阶段运用比例压缩和智能填充技术，确保图像适配视觉编码器的输入规格。

使用方法

该数据集专为评估基于大语言模型的视觉问答系统性能设计。使用流程包含三个阶段：预处理阶段需将图像分割为336×336像素的切片，并提取CLIP视觉特征；评估阶段将图像特征与问题文本共同输入LLaVA等多模态模型，生成预测答案；分析阶段通过比对模型输出与标注答案计算准确率。研究证明，在12dB信噪比条件下，采用本数据集优化的语义通信框架可使问答准确率提升13.4%。数据集特别适用于验证模型在低信噪比环境下的鲁棒性表现。

背景与挑战

背景概述

Visual Question Answering (VQA) dataset for traffic scenarios是由Baoxia Du等人于2025年提出的面向智能交通场景的多模态数据集，旨在评估基于大型多模态模型（LMMs）的语义通信框架性能。该数据集由41幅交通场景图像和172个相关问题组成，重点关注交通标志、车辆和行人等关键元素的视觉问答任务。作为IEEE Transactions on Mobile Computing的研究成果，其创新性体现在融合客观环境注意力与用户主观注意力机制，优化了车载AI系统的语义通信效率。该工作由金泽大学、香港大学和南洋理工大学联合完成，推动了车载边缘计算与生成式人工智能的交叉研究。

当前挑战

该数据集主要解决智能交通场景中多模态语义理解的三大挑战：1) 高分辨率图像处理导致的视觉令牌激增问题，传统方法如LLaVA-1.6会产生2880个令牌，计算开销达43.58T FLOPs；2) 低信噪比环境下的语义传输可靠性问题，当SNR低于13dB时模型准确率骤降33.1%；3) 用户注意力与客观显著性区域的错位问题，需通过轻量级语义匹配模块（集成YOLOv8-n与GloVe）实现动态特征选择。数据构建过程中面临标注一致性挑战，需平衡交通场景的专业性与问答对的自然语言多样性。

常用场景

经典使用场景

在智能交通系统中，Visual Question Answering (VQA) dataset for traffic scenarios数据集被广泛应用于车辆AI助手的开发。通过结合大型多模态模型（LMMs）和语义通信技术，该数据集能够高效处理交通场景中的视觉问答任务。例如，驾驶员可以通过车载摄像头捕捉实时交通图像，并向AI助手提问关于交通标志、车辆位置或行人动态的问题，AI助手则基于数据集提供的丰富标注信息生成准确回答。

解决学术问题

该数据集解决了多模态语义理解中的关键学术问题，特别是在低信噪比（SNR）环境下保持高精度问答的挑战。通过优化图像切片和注意力机制，数据集显著提升了模型在复杂通信环境中的鲁棒性。实验表明，在12dB和10dB的SNR条件下，模型回答准确率分别提升了13.4%和33.1%，为边缘计算场景下的实时语义通信提供了理论支持。

实际应用

在实际应用中，该数据集支撑了智能驾驶系统的核心功能，如实时路况解析、交通标志识别和危险预警。通过部署轻量级视觉编码器于车载终端，并将计算密集型任务卸载至云端，系统在保障隐私安全的同时实现了低延迟响应。例如，AI助手可准确识别模糊的交通标志文本，或在能见度较差时优先传输关键图像区域，显著提升了驾驶安全性和用户体验。

数据集最近研究