avs-spot

Hugging Face2025-03-29 更新2025-03-30 收录

下载链接：

https://huggingface.co/datasets/sindhuhegde/avs-spot

下载链接

链接失效反馈

官方服务：

资源简介：

AVS-Spot是一个针对 gestured word-spotting 任务评估的数据集，包含500个视频，每个视频至少有一个清晰的手势词，并提供了包括文本短语、单词边界、语音强调标签在内的详细标注信息。

创建时间：

2025-03-28

原始信息汇总

AVS-Spot 数据集概述

基本信息

任务类别: 特征提取、文本到视频
标注创建者: 专家生成
语言: 英语
标签: 伴随语音的手势、手势定位、视频理解、多模态学习
数据集名称: AVS-Spot
规模: 小于1K
源数据集: 扩展数据集

数据集简介

AVS-Spot 是一个用于评估手势单词定位任务的基准数据集。包含500个视频，采样自 AVSpeech 官方测试数据集。每个视频至少包含一个清晰的手势单词，标注为“目标单词”。此外，还提供其他标注，包括文本短语、单词边界和语音重音标签。

数据集结构

数据字段

video_id: YouTube 视频 ID
start_time: 开始时间（秒）
end_time: 结束时间（秒）
filename: 文件名及目标说话者裁剪编号
num_frames: 预处理后的视频帧数
phrase: 视频文本转录
target_word: 目标单词（需定位的单词）
target_word_boundary: 目标单词边界
word_boundaries: 所有单词的边界
stress_label: 目标单词是否被重读的二进制标签

数据实例

json { "video_id": "jnsuH9_qYyA", "start_time": 26.562700, "end_time": 29.802700, "filename": "jnsuH9_qYyA_26.562700-29.802700/00000", "num_frames": 83, "phrase": "app is beautiful it just is streamlined it", "target_word": "beautiful", "target_word_boundary": "[beautiful, 21, 37]", "word_boundaries": "[[app, 0, 11], [is, 12, 13], [beautiful, 21, 37], [it, 45, 47], [just, 48, 53], [is, 60, 63], [streamlined, 65, 81], [it, 82, 83]]", "stress_label": 1 }

数据集统计

数据集	分割	时长（小时）	说话者数量	平均剪辑时长	视频数量
AVS-Spot	test	0.38	391	2.73	500

引用

bibtex @article{Hegde_ArXiv_2025, title={Understanding Co-speech Gestures in-the-wild}, author={Hegde, Sindhu and Prajwal, K R, Kwon, Taein and Zisserman, Andrew}, booktitle={arXiv}, year={2025} }

致谢

感谢 Piyush Bagad、Ragav Sachdeva 和 Jaesung Hugh 的宝贵讨论，以及 David Pinto 和 Ashish Thandavan 的支持。本研究由 EPSRC Programme Grant VisualAI EP/T028572/1 和 Royal Society Research Professorship RP extbackslash R1 extbackslash 191132 资助。

搜集汇总

数据集介绍

构建方式

AVS-Spot数据集构建于AVSpeech官方测试数据集的基础之上，通过WhisperX ASR模型提取单词对齐的转录文本，精心筛选包含4至12个单词的短句片段，确保每个片段均展现出显著的手势动作。研究团队随后对这些片段进行人工审核与标注，确定其中的目标单词，即那些伴随明显手势的词汇。经过这一严谨流程，最终精选出500个视频片段，每个片段均包含一个清晰定义的手势单词，同时提供目标单词的边界帧及语音重音标签，为手势识别任务提供了高质量的评估基准。

特点

AVS-Spot数据集以其多模态特性脱颖而出，涵盖视频、音频和文本三种模态，专注于伴随语音手势的单词定位任务。数据集包含500个英语视频片段，平均时长2.73秒，涉及391位不同说话者，确保了样本的多样性。每个样本均标注有目标单词、单词边界帧信息以及语音重音标签，这些精细标注为研究手势与语音的关联性提供了丰富线索。特别值得注意的是，数据集通过人工筛选保证了标注质量，显著降低了标签噪声，使其成为评估手势识别算法的可靠基准。

使用方法

使用AVS-Spot数据集时，研究者可通过Hugging Face的datasets库直接加载标注文件，运行指定脚本即可完成数据下载与预处理流程。数据集预处理后包含原始视频文件、提取的人物轨迹视频与音频，以及合并后的目标说话者视频。典型应用场景包括：给定目标单词和输入视频，通过分析手势动作在视频中定位目标单词的出现位置。数据集的标注信息如视频ID、时间戳、文本转录、单词边界等字段，为开发跨模态检索、手势单词定位等任务算法提供了全面支持，研究者可参考提供的示例代码快速开展实验工作。

背景与挑战

背景概述

AVS-Spot数据集由牛津大学视觉几何组（Visual Geometry Group, VGG）于2025年推出，作为研究伴随语音手势（co-speech gestures）理解的重要基准。该数据集源于AVSpeech官方测试集，通过专家标注构建了500个包含明确手势单词的视频样本，每个样本均标注了目标词、词边界及语音重音标签。其核心研究在于建立手势、音频与语言的联合嵌入空间（JEGAL），为多模态学习中的手势定位任务提供了标准化评估框架。该数据集的发布显著推动了人机交互、视频理解等领域对非语言交际行为的量化研究。

当前挑战

该数据集主要面临两重挑战：在领域问题层面，伴随语音手势具有高度多样性和主观性，准确区分手势动作与自然肢体运动存在困难，且不同文化背景下的手势语义差异增加了跨模态对齐的复杂度；在构建过程中，需从原始视频中精确提取短语音片段并确保手势显著性，依赖WhisperX ASR模型进行词对齐可能引入误差，而人工标注目标词及其边界需耗费大量专家资源。此外，数据规模较小（仅500个样本）可能限制模型在复杂场景下的泛化能力。

常用场景

经典使用场景

AVS-Spot数据集在自然语言处理与计算机视觉的交叉领域具有重要价值，尤其在协同语音手势识别研究中表现突出。该数据集常用于训练和评估模型在真实场景下对特定词汇伴随手势的定位能力，为多模态学习提供了丰富的视频、音频和文本标注数据。研究人员通过分析手势与语音的时序对齐关系，能够深入探究非语言交流的认知机制。

实际应用

在实际应用层面，AVS-Spot数据集支撑了智能虚拟助手、远程教育系统等场景的沉浸式交互体验优化。基于该数据集训练的模型可实时检测视频中的强调手势，为在线教育平台提供讲课重点自动标注功能。在视频会议系统中，手势定位技术能显著提升唇语识别和语音增强的准确度，改善听觉障碍用户的沟通体验。

衍生相关工作

该数据集催生了多项创新研究，包括JEGAL联合嵌入空间等代表性工作。相关研究扩展了多模态表征学习的应用边界，如基于手势的说话人识别、跨模态检索等衍生任务。后续工作进一步探索了手势语义与语音韵律的深层关联，为构建更自然的人机交互系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集