Acted TG (ATG) 和 Instructive TG In-The-Wild (ITGI)

Name: Acted TG (ATG) 和 Instructive TG In-The-Wild (ITGI)
Creator: 加州大学默塞德分校, 奥尔堡大学
Published: 2025-04-15 13:04:25
License: 暂无描述

arXiv2025-04-15 更新2025-04-17 收录

下载链接：

https://github.com/tbosse20/gest_VLM_eval

下载链接

链接失效反馈

官方服务：

资源简介：

本研究创建了两个自定义数据集，分别为'Acted TG (ATG)'和'Instructive TG In-The-Wild (ITGI)'。'ATG'数据集包含8个视频，由单一演员对静态摄像机做出各种交通手势，如'停止'、'倒车'等；'ITGI'数据集包含18个视频，记录了在城镇中行驶时与交通指挥官的实时互动。这些数据集旨在帮助自主车辆更好地理解和响应行人的动态非语言手势。

This study developed two custom datasets, namely 'Acted TG (ATG)' and 'Instructive TG In-The-Wild (ITGI)'. The 'ATG' dataset comprises 8 videos, in which a single actor performs various traffic gestures (e.g., "stop", "reverse", and others) in front of a stationary camera. The 'ITGI' dataset contains 18 videos that record real-time interactions with traffic commanders while driving in a town. These datasets are designed to help autonomous vehicles better understand and respond to dynamic non-verbal gestures from pedestrians.

提供机构：

加州大学默塞德分校, 奥尔堡大学

创建时间：

2025-04-15

原始信息汇总

VLM交通手势评估数据集概述

数据集基本信息

数据集名称: VLM traffic gesture evaluation
数据集链接: <LINK>
包含子数据集:
- ATG
- ITGI

数据集内容

主要任务: 交通手势的标注和分类
数据生成方式: 系统为每个视频间隔生成以下元素的标注：
- 使用的模型: Qwen, VideoLLaMA2, VideoLLaMA3（位于models/文件夹）
- 使用的提示类型: "Blank", "Determine", "Body", "Context", "Objective"（位于config/prompts.py）

数据处理流程

视频转帧: 运行scripts/video_to_frames.py将视频转换为帧，生成对应的帧文件夹（以_frames结尾）。
生成标注: 运行scripts/caption_w_models.py，使用models/中的模型和config/prompts中的提示类型生成标注。
标注对比: 运行scripts/compare_captions.py与真实标注对比（真实标注位于../actedgestures/labels/，格式为CSV：video_name, frame_idx, label）。
结果可视化: 运行scripts/plot_metrics.py绘制结果并输出到results/figures，支持通过--prompt_type或--gestures参数进行比较。

其他信息

重建任务: 有单独的文件夹进行处理。
待办事项:
- 将指标验证改为箱线图
- 在指标验证中添加更多句子和场景（实现多场景支持）

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，准确理解交通手势（TGs）对于确保道路安全至关重要。Acted TG (ATG) 和 Instructive TG In-The-Wild (ITGI) 数据集的构建采用了多模态方法。ATG数据集通过单一演员在静态摄像头前模拟多种交通手势，如‘停止’、‘倒车’、‘招呼’等，并在封闭环境中录制以控制变量。ITGI数据集则采集自真实交通场景，使用四台同步车载摄像头记录多方向视角，涵盖正式和非正式的交通指挥手势。数据集标注由专业驾驶员完成，包含自然语言描述行人身体姿态和手势意图，同时辅以专家生成的标注作为基准。

特点

ATG和ITGI数据集在交通手势识别领域具有显著特点。ATG数据集通过控制实验环境，提供了高质量、标准化的手势视频，适用于算法开发和性能评估。ITGI数据集则捕捉了真实世界中的复杂场景，包含多视角、多参与者的动态手势，增强了数据的多样性和实用性。两个数据集均标注了详细的自然语言描述，不仅涵盖手势的物理特征，还包含其语义解释，为视觉语言模型（VLMs）的零样本学习提供了丰富的信息。此外，数据集的构建特别关注了手势的时空特性，为研究动态手势理解提供了重要基础。

使用方法

ATG和ITGI数据集的使用方法围绕视觉语言模型的评估展开。研究者可通过三种主要方式利用这些数据：首先，通过嵌入相似性分析，比较模型生成描述与基准标注的语义相似性；其次，进行手势分类任务，评估模型在有限类别下的识别准确率；最后，通过姿态序列重建相似性，验证模型对动态手势的时空建模能力。数据集的标注信息可直接用于模型训练，也可作为零样本评估的基准。此外，多视角的ITGI数据支持跨视角手势理解研究，而ATG的标准化数据则适用于算法鲁棒性测试。为便于研究，数据集还提供了详细的标注指南和评估脚本。

背景与挑战

背景概述

Acted TG (ATG) 和 Instructive TG In-The-Wild (ITGI) 数据集由加州大学默塞德分校的Tonko Bossen、Aalborg大学的Andreas Møgelmose以及加州大学默塞德分校的Ross Greer等研究人员于2025年创建，旨在解决自动驾驶领域中行人动态手势理解的挑战。该数据集专注于交通手势（TGs）的识别与解释，包括正式和非正式手势，如‘停止’、‘倒车’、‘招呼’等，以提升自动驾驶车辆在交互式交通场景中的安全性和信任度。数据集的标注采用自然语言描述行人的身体姿态和手势，为视觉语言模型（VLMs）的零样本解释能力提供了重要基准。

当前挑战

ATG和ITGI数据集面临的挑战主要包括两方面：1) 领域问题的挑战：当前视觉语言模型在零样本解释行人手势时表现不佳，句子相似度平均低于0.59，分类F1分数仅为0.14-0.39，远低于专家基线的0.70。这表明模型在理解复杂手势意图方面存在显著不足，尤其是在多视角、文化差异和动态场景中。2) 构建过程中的挑战：数据集的标注需精确描述手势的方向和意图，涉及多视角（如驾驶员和行人视角）的协调，且需避免语言描述的歧义性。此外，真实场景中手势的多样性和非正式性增加了数据采集和标注的复杂度。

常用场景

经典使用场景

在自动驾驶领域，Acted TG (ATG) 和 Instructive TG In-The-Wild (ITGI) 数据集被广泛应用于评估视觉语言模型（VLMs）对行人动态手势的理解能力。这些数据集通过捕捉行人手势的自然语言描述，为研究者提供了丰富的标注数据，用于测试模型在零样本情况下的手势分类和描述生成能力。经典使用场景包括模拟交通指挥手势和真实世界中的非正式手势交互，为自动驾驶系统的手势理解研究提供了重要基准。

实际应用

在实际应用中，ATG和ITGI数据集为自动驾驶系统的开发提供了关键测试场景。例如，通过分析警察指挥或行人非正式手势的标注数据，工程师可以优化车辆对“停止”“转向”等指令的响应逻辑。这些数据还被用于多模态系统开发，结合姿态估计与语言模型，提升车辆在复杂城市环境中的交互安全性，尤其在无信号灯路口的行人优先决策中发挥重要作用。

衍生相关工作

该数据集衍生了一系列重要研究，如基于姿态特征提取的GestLLM模型和端到端驾驶系统DriveLLaVA。相关工作还包括CoVLA等轨迹生成框架，它们利用数据集的标注探索手势与车辆控制的映射关系。此外，数据集启发了对多视角手势理解的研究，如通过时钟方向描述解决视角歧义问题，推动了交通手势标准化和跨文化交互研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集