intent chain-annotated text-to-gesture label dataset
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
http://arxiv.org/abs/2503.20202v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个意图链注释的文本到手势标签数据集,用于训练语言模型以生成与文本相对应的手势标签。数据集基于一个综合的伴随言语手势志构建,该手势志包含了一个三层级的分类体系,包括意图层、子意图层和动作层。数据集中的每个手势都有详细的描述和使用指南,以确保生成手势标签的准确性和可靠性。
This dataset is an intent-chain annotated text-to-gesture label dataset designed for training language models to generate gesture labels corresponding to input texts. It is constructed based on a comprehensive co-speech gesture lexicon, which features a three-tier classification system covering the intent layer, sub-intent layer, and action layer. Each gesture in the dataset comes with detailed descriptions and usage guidelines to ensure the accuracy and reliability of the generated gesture labels.
提供机构:
中国科学院自动化研究所, 中国北京市
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
在语音同步手势合成的研究背景下,SARGes框架通过构建一个全面的共语手势行为谱,系统性地解析和分解手势语义为结构化推理步骤。研究团队首先建立了包含意图层、子意图层和动作层的三层手势分类体系,并基于此收集了200余种共语手势,通过ChatGPT生成使用描述并人工校正,形成可信手势指南。随后采用思维链提示和自我反思机制与大型语言模型交互,将文本解析为符合行为谱标准的手势标签,最终构建了包含3242条文本-手势标签对的数据集。
特点
该数据集的核心价值在于其层次化的语义标注体系和严格的可靠性控制。基于动物行为学中的行为谱概念,数据集将手势按信息展示、具象强化、语调强化和安抚行为四大意图分类,细分为78种具体动作,每种动作均配备详细的使用场景描述和关键词索引。独特之处在于采用意图链推理机制,通过思维链提示和自我反思双重策略,显著降低了LLM的幻觉现象,使生成的手势标签与文本语义对齐准确率达到50.2%。数据集同时保留了手势在文本中的位置信息(起始字符和持续时间),为时序对齐研究提供支持。
使用方法
该数据集主要服务于语义手势生成的模型训练与评估。使用流程可分为三个阶段:首先基于文本输入,通过微调后的Qwen语言模型(采用LoRA技术适配)生成带手势标签的文本输出,格式为'文本片段(id: 动作编号, description: 动作描述)';其次利用生成的手势标签指导运动匹配或运动生成技术,驱动虚拟角色产生语义一致的动作;最终可通过部分重叠率等指标评估标签与文本的语义对齐程度。数据集的轻量化模型实现单次推理仅需0.4秒,较GPT-4提速7.5倍,特别适合虚拟数字人和社交机器人等实时交互场景。
背景与挑战
背景概述
SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain 是由中国科学院自动化研究所、北京理工大学和快手科技的研究团队于2025年提出的创新框架,旨在解决语音同步手势生成中的语义一致性问题。该研究构建了首个基于意图链标注的文本-手势标签数据集,通过大语言模型解析语音内容并生成可靠语义手势标签,为虚拟数字人和社交机器人等应用提供了可解释的意图推理路径。项目创新性地将动物行为学中的行为谱概念引入手势分类体系,建立了包含意图层、子意图层和动作层的三层手势行为谱,系统性地解决了协同语音场景下语义手势的分类与管理难题。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,现有协同语音手势生成方法普遍存在语义理解不足的缺陷,难以准确捕捉文本中的情感线索和语境特征来生成符合语义的手势动作;在构建过程层面,研究团队需要克服大语言模型固有的幻觉问题,通过设计意图链推理机制和自反思策略来提升标签生成的可靠性。此外,如何将200余种手势按照行为谱标准进行多层级分类,并建立包含情感关联词和场景描述的可靠手势指南,也是数据集构建过程中的重要技术难点。
常用场景
经典使用场景
在虚拟数字人和社交机器人领域,意图链标注的文本-手势标签数据集为语音同步手势生成提供了关键支持。通过系统化解析语音内容并生成可靠的手势语义标签,该数据集显著提升了手势生成的语义准确性和自然度。其经典应用场景包括虚拟主播的实时手势合成、远程会议中的虚拟形象动画,以及人机交互界面的情感化表达。数据集构建的层次化手势行为谱系,为复杂对话场景下的多模态交互奠定了理论基础。
解决学术问题
该数据集有效解决了语音-手势跨模态对齐中的语义鸿沟问题,填补了现有方法在语义手势生成方面的技术空白。通过引入行为学中的行为谱系概念,建立了首个系统化的共语音手势分类体系,将手势意图分解为信息展示、具象强化、语调强化和安抚行为四个层级。这种结构化标注方式使得大语言模型能够生成上下文感知的手势标签,实验证明其语义对齐准确率可达50.2%,为语义手势生成研究提供了可量化的评估基准。
衍生相关工作
该数据集催生了多个语义手势生成领域的创新研究。基于其构建的层次化行为谱系,GesGPT提出了GPT驱动的意图分类框架;Semantic Gesticulator开发了语义感知的共语音手势合成系统;Diffsheg则将该数据集与扩散模型结合,实现了3D表情与手势的联合生成。这些衍生工作共同推动了人机交互中非语言沟通技术的进步,相关成果已发表于ACM Transactions on Graphics等顶级期刊。
以上内容由遇见数据集搜集并总结生成



