Prompt-to-Gesture Deictic Gestures Dataset
收藏arXiv2026-04-16 更新2026-04-19 收录
下载链接:
https://prompt-to-gesture.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由汉堡大学与安特卫普大学联合构建,聚焦于指向性手势的合成与真实视频数据。核心内容包含68条真人录制的实验室手势视频及通过Vidu模型生成的1632条合成视频,通过结构化文本提示控制生成过程,实现了人物外观、手势语义与环境背景的高度一致性。数据集采用图像到视频生成技术,基于少量真人样本扩展出具有场景多样性(如动态背景、不同运动速度)的合成数据,旨在解决人机交互领域手势数据稀缺问题,为手势识别模型训练提供丰富素材。
This dataset was jointly developed by the University of Hamburg and the University of Antwerp, focusing on synthetic and real video data for deictic gestures. Its core content includes 68 laboratory gesture videos captured from real human subjects and 1,632 synthetic videos generated using the Vidu model. The generation pipeline is controlled via structured text prompts, ensuring high consistency across human appearance, gesture semantics and environmental backgrounds. Employing image-to-video generation techniques, the dataset expands upon a small set of real human samples to produce synthetic data with diverse scene settings, including dynamic backgrounds and varying motion speeds. This work aims to alleviate the issue of scarce gesture data in the human-computer interaction (HCI) domain, providing rich resources for the training of gesture recognition models.
提供机构:
汉堡大学·知识技术组; 安特卫普大学·行为实验室
创建时间:
2026-04-16
搜集汇总
数据集介绍

构建方式
在非语言交流研究领域,高质量手势数据的稀缺长期制约着相关模型的进展。Prompt-to-Gesture Deictic Gestures Dataset 的构建巧妙地利用了前沿的图像到视频生成模型。该数据集以少量真人录制的指示性手势视频作为参考样本,通过精心设计的文本提示模板,驱动 Vidu 模型进行零样本生成。生成流程结合了起始与结束关键帧的视觉引导,以及结构化提示对参与者外观、姿态、环境与摄像机设置的细致描述,从而系统性地合成出既保持语义一致性又富含自然变异性的光真实感手势视频序列。
使用方法
该数据集为手势识别、人机交互等下游任务提供了高质量、可扩展的数据资源。研究人员可直接将合成视频用于模型训练,以弥补真实数据规模的不足;亦可采用预训练-微调的策略,先在合成数据上进行预训练,再使用少量真实数据微调,以提升模型在真实场景下的泛化性能与识别准确率。此外,其公开的生成管道与提示模板,使得行为心理学、机器人学等交叉领域的研究者无需深厚机器学习背景,也能便捷地生成特定场景下的手势数据,用于实验刺激构建或行为分析。
背景与挑战
背景概述
在非语言交流研究领域,手势识别长期面临数据稀缺的困境,传统方法依赖成本高昂的人工录制或难以生成真实手势多样性的图像处理技术。Prompt-to-Gesture Deictic Gestures Dataset由德国汉堡大学知识技术研究组与比利时安特卫普大学行为实验室的研究人员于2026年提出,旨在探索生成式人工智能在缓解手势数据匮乏问题上的潜力。该数据集聚焦于指示性手势的生成与评估,核心研究问题在于验证基于图像到视频的基础模型能否合成具有高视觉保真度与语义丰富性的手势视频,从而为人类-机器人交互等下游任务提供可扩展的数据增强方案。其创新性在于构建了一个结合文本提示与参考帧的零样本生成管道,为跨学科的手势研究提供了新的基础设施。
当前挑战
该数据集致力于解决手势识别领域因数据稀缺导致模型泛化能力受限的核心挑战,具体包括在受控实验室环境下收集的数据缺乏真实场景的多样性与自然性,以及针对指示性手势这类特定类别构建大规模、高质量数据集的困难。在构建过程中,研究团队面临多重技术挑战:首先,确保生成式视频模型在合成手势时保持高度的时空连贯性,避免运动抖动或肢体扭曲等常见伪影;其次,设计有效的文本提示结构以精确控制参与者的外观、手势姿态、环境背景与摄像机参数,从而实现语义对齐;最后,需建立一套综合评估体系,量化合成数据在视觉保真度、运动自然性及对下游任务效用等方面的表现,以验证其作为真实数据补充的有效性。
常用场景
经典使用场景
在非语言通信与人机交互领域,Prompt-to-Gesture Deictic Gestures Dataset 的经典应用场景聚焦于指向性手势的生成与识别研究。该数据集通过结合真实人类录制样本与基于图像到视频生成模型的合成数据,为手势识别模型提供了丰富且多样化的训练素材。研究者利用该数据集评估生成式人工智能在合成逼真手势视频方面的能力,特别是在零样本条件下,通过文本提示引导生成具有时空一致性的指向动作,从而探索合成数据在弥补真实数据稀缺性方面的潜力。
解决学术问题
该数据集有效应对了手势识别研究中长期存在的数据匮乏问题。传统手势数据收集依赖成本高昂的人类录制,且受限于实验室环境,导致数据规模有限、多样性不足。Prompt-to-Gesture 数据集通过生成式人工智能技术,以零样本方式合成大量具有视觉逼真度和语义一致性的指向手势视频,不仅缓解了数据稀缺性,还引入了环境噪声、运动速度变化等真实世界变体,提升了数据的泛化能力。其意义在于为手势识别、生成模型评估以及跨模态学习提供了标准化基准,推动了非语言通信计算模型的发展。
实际应用
在实际应用层面,该数据集为人机交互、服务机器人及虚拟现实系统提供了关键支持。在机器人交互场景中,合成指向手势可用于训练机器人理解人类指向意图,实现更自然的物体指认与协同操作。在虚拟现实与增强现实环境中,该数据集能够生成多样化的用户手势样本,用于开发直观的界面控制与导航系统。此外,其可访问的生成管道使得行为心理学、游戏设计等跨学科领域能够便捷地获取定制化手势数据,促进多领域融合创新。
数据集最近研究
最新研究方向
在非语言通信与人机交互领域,手势识别长期受限于高质量数据的稀缺性,传统采集方法成本高昂且难以覆盖真实场景的多样性。Prompt-to-Gesture数据集的提出,标志着生成式人工智能技术在手势合成中的前沿应用,其核心研究方向聚焦于利用图像到视频基础模型(如Vidu)实现零样本、高保真的指示性手势生成。该工作通过结构化文本提示与参考帧引导,系统性地合成具有光真实感与时空一致性的手势视频,不仅有效缓解了数据匮乏问题,还引入了环境噪声、运动速度变化等增强因子,模拟了野外条件下的手势变异性。研究进一步通过FID、FVD等量化指标与动作导数分析,验证了合成数据在视觉逼真度、运动自然度方面与真实数据的对齐程度,并通过知识迁移实验证实了合成数据对下游手势识别模型的性能提升潜力。这一方向正推动手势研究从依赖有限实验室数据向可扩展、多样化的生成范式转变,为人机交互、行为心理学及机器人学等跨学科领域提供了高效的数据构建新途径。
相关研究论文
- 1Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation汉堡大学·知识技术组; 安特卫普大学·行为实验室 · 2026年
以上内容由遇见数据集搜集并总结生成



