DnD Gesture++
收藏arXiv2025-10-22 更新2025-10-24 收录
下载链接:
https://arxiv.org/abs/2510.19350v1
下载链接
链接失效反馈官方服务:
资源简介:
DnD Gesture++是一个多模态数据集,由Saarland University和Max Planck Institute for Informatics创建,包含来自六小时多人对话的同步3D运动、音频和文本转录。该数据集经过人工标注,包含2,663个语义手势标注,涵盖了象征性、隐喻性、指示性和语篇类型。DnD Gesture++被用于研究语义手势在话语转换预测中的作用,并通过多专家框架整合文本、音频和手势来建模话语转换。
DnD Gesture++ is a multimodal dataset developed by Saarland University and the Max Planck Institute for Informatics, containing synchronized 3D motion, audio, and text transcripts from six hours of multi-party conversations. This dataset has been manually annotated, with 2,663 semantic gesture annotations covering iconic, metaphorical, deictic, and discourse categories. DnD Gesture++ has been utilized to investigate the role of semantic gestures in turn-taking prediction, and to model turn-taking by integrating text, audio, and gesture modalities through a multi-expert framework.
提供机构:
Saarland University, Max Planck Institute for Informatics
创建时间:
2025-10-22
原始信息汇总
数据集概述
基本信息
- 标题: Modeling Turn-Taking with Semantically Informed Gestures
- arXiv标识符: arXiv:2510.19350v1
- 提交日期: 2025年10月22日
- 学科分类: Computer Science > Computation and Language (cs.CL)
- DOI: https://doi.org/10.48550/arXiv.2510.19350
作者信息
- Varsha Suresh
- M. Hamza Mughal
- Christian Theobalt
- Vera Demberg
数据集描述
- 数据集名称: DnD Gesture++
- 数据集性质: 多模态对话数据集
- 数据扩展: 在DnD Gesture语料库基础上扩展,包含2,663个语义手势标注
- 标注类型: 涵盖图标手势、隐喻手势、指示手势和话语手势
研究内容
- 研究主题: 多模态对话中的轮换预测
- 研究方法: 采用混合专家框架,整合文本、音频和手势信息
- 研究结果: 语义引导的手势特征在轮换预测中提供了补充性信息,相比基线方法获得了持续的性能提升
资源链接
- PDF文档: https://arxiv.org/pdf/2510.19350v1
- HTML文档: https://arxiv.org/html/2510.19350v1
- TeX源码: https://arxiv.org/format/2510.19350v1
搜集汇总
数据集介绍

构建方式
在多模态对话研究领域,DnD Gesture++数据集的构建基于原始DnD Gesture语料库的扩展。研究团队通过人工标注方式,对六小时多人会话视频中的手势进行了精细分类,严格遵循McNeill手势分类学框架,将2663个手势实例划分为图示性、隐喻性、指示性和话语性四种语义类型。标注过程结合了语言上下文和视觉模态信息,使用ELAN工具进行多轨道同步标注,确保了时间对齐精度。最终形成的语料库每小时包含444个标注实例,成为目前英语多模态对话研究中标注密度最高的资源之一。
特点
该数据集最显著的特征在于其丰富的语义手势标注体系。不同于传统仅关注韵律特征的手势数据集,DnD Gesture++首次在多人自然对话场景中系统标注了四种语义手势类型,其中指示性手势占比最高达43.4%,图示性手势占27.2%,话语性手势占23.8%,隐喻性手势占5.7%。数据集同时保留了完整的多模态同步数据,包括三维全身运动捕捉、音频波形和转写文本,为研究手势与语言表达的深层关联提供了立体化视角。这种密集标注特性使其特别适合探究语义手势在对话管理中的功能分化。
使用方法
该数据集主要应用于多模态对话系统的开发与评估。研究人员可通过其提供的结构化转换数据,将连续对话分割为12800个说话轮次,其中持有轮次占60%,让出轮次占40%。典型使用流程包括:首先提取文本、音频和手势三种模态的特征表示,然后采用混合专家框架进行多模态融合,最后通过线性分类器预测说话轮次转换。数据集已按7:1:2比例划分为训练、验证和测试集,支持端到端的模型训练与评估。此外,语义手势标注还可直接用于语音伴随手势生成等衍生任务,推动多模态交互研究的深入发展。
背景与挑战
背景概述
在多人对话交互研究中,轮转协调机制是维持对话流畅性的核心问题。DnD Gesture++数据集由萨尔兰大学与马克斯·普朗克信息学研究所于2025年联合发布,其构建基础源于多模态对话语料库DnD Gesture的扩展。该数据集通过人工标注2,663个语义手势实例,涵盖图示型、隐喻型、指示型与话语型四类手势,旨在探究语义手势在多模态轮转预测中的互补作用。作为当前英语多轮对话中手势标注密度最高的资源,该数据集为计算语言学与人机交互领域提供了重要的实证基础。
当前挑战
在轮转预测任务中,传统模型主要依赖文本与声学特征,而语义手势的时序对齐与多模态融合构成核心挑战。具体表现为:手势动作的短暂性与语义多样性要求模型精准捕捉跨模态关联;数据构建过程中需解决多人对话场景下的手势边界划分难题,且标注工作需协调语言学理论与视觉动作的复杂对应关系。此外,非结构化手势数据与语言模态的异构表征进一步增加了多模态对齐的建模复杂度。
常用场景
经典使用场景
在多模态人机交互研究中,DnD Gesture++数据集最经典的应用场景是用于构建基于语义手势的对话轮次转换预测模型。该数据集通过整合文本、音频和手势三种模态信息,为研究者提供了分析多参与者对话中非语言信号如何影响话轮转换的独特视角。在自然对话场景中,参与者通过特定类型的手势信号来暗示保持话轮或让出话轮,这种复杂的多模态协调机制正是该数据集重点研究的核心问题。
实际应用
在实际应用层面,DnD Gesture++为构建智能对话系统提供了重要技术基础。基于该数据集训练的模型可应用于远程会议系统,通过实时分析参与者的手势意图来优化话轮分配策略,减少对话重叠和沉默间隙。在虚拟现实社交平台中,该系统能够生成符合语义语境的手势响应,增强虚拟代理的交互真实感。此外,在教育领域的在线协作场景中,该技术有助于改善多人远程讨论的流畅度,提升群体沟通效率。
衍生相关工作
该数据集的发布催生了一系列多模态交互领域的创新研究。在协同语音手势生成方向,研究者利用其密集标注开发了基于检索增强的语义手势合成框架Convofusion。在对话系统优化方面,衍生出了结合手势线索的话语结构建模方法,显著提升了语言模型的对话理解能力。此外,基于该数据集构建的混合专家框架为多模态融合机制提供了新范式,启发了后续关于跨模态对齐表征的深入研究,推动了整个人工智能交互领域的技术演进。
以上内容由遇见数据集搜集并总结生成



