Prompt-to-Gesture Deictic Gestures Dataset

Name: Prompt-to-Gesture Deictic Gestures Dataset
Creator: 汉堡大学·知识技术组; 安特卫普大学·行为实验室
Published: 2026-04-16 20:52:12
License: 暂无描述

arXiv2026-04-16 更新2026-04-19 收录

下载链接：

https://prompt-to-gesture.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由汉堡大学与安特卫普大学联合构建，聚焦于指向性手势的合成与真实视频数据。核心内容包含68条真人录制的实验室手势视频及通过Vidu模型生成的1632条合成视频，通过结构化文本提示控制生成过程，实现了人物外观、手势语义与环境背景的高度一致性。数据集采用图像到视频生成技术，基于少量真人样本扩展出具有场景多样性（如动态背景、不同运动速度）的合成数据，旨在解决人机交互领域手势数据稀缺问题，为手势识别模型训练提供丰富素材。

This dataset was jointly developed by the University of Hamburg and the University of Antwerp, focusing on synthetic and real video data for deictic gestures. Its core content includes 68 laboratory gesture videos captured from real human subjects and 1,632 synthetic videos generated using the Vidu model. The generation pipeline is controlled via structured text prompts, ensuring high consistency across human appearance, gesture semantics and environmental backgrounds. Employing image-to-video generation techniques, the dataset expands upon a small set of real human samples to produce synthetic data with diverse scene settings, including dynamic backgrounds and varying motion speeds. This work aims to alleviate the issue of scarce gesture data in the human-computer interaction (HCI) domain, providing rich resources for the training of gesture recognition models.

提供机构：

汉堡大学·知识技术组; 安特卫普大学·行为实验室

创建时间：

2026-04-16

搜集汇总

数据集介绍

构建方式

在非语言交流研究领域，高质量手势数据的稀缺长期制约着相关模型的进展。Prompt-to-Gesture Deictic Gestures Dataset 的构建巧妙地利用了前沿的图像到视频生成模型。该数据集以少量真人录制的指示性手势视频作为参考样本，通过精心设计的文本提示模板，驱动 Vidu 模型进行零样本生成。生成流程结合了起始与结束关键帧的视觉引导，以及结构化提示对参与者外观、姿态、环境与摄像机设置的细致描述，从而系统性地合成出既保持语义一致性又富含自然变异性的光真实感手势视频序列。

使用方法

该数据集为手势识别、人机交互等下游任务提供了高质量、可扩展的数据资源。研究人员可直接将合成视频用于模型训练，以弥补真实数据规模的不足；亦可采用预训练-微调的策略，先在合成数据上进行预训练，再使用少量真实数据微调，以提升模型在真实场景下的泛化性能与识别准确率。此外，其公开的生成管道与提示模板，使得行为心理学、机器人学等交叉领域的研究者无需深厚机器学习背景，也能便捷地生成特定场景下的手势数据，用于实验刺激构建或行为分析。

背景与挑战

背景概述

在非语言交流研究领域，手势识别长期面临数据稀缺的困境，传统方法依赖成本高昂的人工录制或难以生成真实手势多样性的图像处理技术。Prompt-to-Gesture Deictic Gestures Dataset由德国汉堡大学知识技术研究组与比利时安特卫普大学行为实验室的研究人员于2026年提出，旨在探索生成式人工智能在缓解手势数据匮乏问题上的潜力。该数据集聚焦于指示性手势的生成与评估，核心研究问题在于验证基于图像到视频的基础模型能否合成具有高视觉保真度与语义丰富性的手势视频，从而为人类-机器人交互等下游任务提供可扩展的数据增强方案。其创新性在于构建了一个结合文本提示与参考帧的零样本生成管道，为跨学科的手势研究提供了新的基础设施。

当前挑战

该数据集致力于解决手势识别领域因数据稀缺导致模型泛化能力受限的核心挑战，具体包括在受控实验室环境下收集的数据缺乏真实场景的多样性与自然性，以及针对指示性手势这类特定类别构建大规模、高质量数据集的困难。在构建过程中，研究团队面临多重技术挑战：首先，确保生成式视频模型在合成手势时保持高度的时空连贯性，避免运动抖动或肢体扭曲等常见伪影；其次，设计有效的文本提示结构以精确控制参与者的外观、手势姿态、环境背景与摄像机参数，从而实现语义对齐；最后，需建立一套综合评估体系，量化合成数据在视觉保真度、运动自然性及对下游任务效用等方面的表现，以验证其作为真实数据补充的有效性。

常用场景

经典使用场景

在非语言通信与人机交互领域，Prompt-to-Gesture Deictic Gestures Dataset 的经典应用场景聚焦于指向性手势的生成与识别研究。该数据集通过结合真实人类录制样本与基于图像到视频生成模型的合成数据，为手势识别模型提供了丰富且多样化的训练素材。研究者利用该数据集评估生成式人工智能在合成逼真手势视频方面的能力，特别是在零样本条件下，通过文本提示引导生成具有时空一致性的指向动作，从而探索合成数据在弥补真实数据稀缺性方面的潜力。

解决学术问题

该数据集有效应对了手势识别研究中长期存在的数据匮乏问题。传统手势数据收集依赖成本高昂的人类录制，且受限于实验室环境，导致数据规模有限、多样性不足。Prompt-to-Gesture 数据集通过生成式人工智能技术，以零样本方式合成大量具有视觉逼真度和语义一致性的指向手势视频，不仅缓解了数据稀缺性，还引入了环境噪声、运动速度变化等真实世界变体，提升了数据的泛化能力。其意义在于为手势识别、生成模型评估以及跨模态学习提供了标准化基准，推动了非语言通信计算模型的发展。

实际应用

在实际应用层面，该数据集为人机交互、服务机器人及虚拟现实系统提供了关键支持。在机器人交互场景中，合成指向手势可用于训练机器人理解人类指向意图，实现更自然的物体指认与协同操作。在虚拟现实与增强现实环境中，该数据集能够生成多样化的用户手势样本，用于开发直观的界面控制与导航系统。此外，其可访问的生成管道使得行为心理学、游戏设计等跨学科领域能够便捷地获取定制化手势数据，促进多领域融合创新。

数据集最近研究