VENUS

Name: VENUS
Creator: 延世大学（Yonsei University）
Published: 2025-06-01 19:07:25
License: 暂无描述

arXiv2025-06-01 更新2025-06-05 收录

下载链接：

https://github.com/winston1214/nonverbalconversation

下载链接

链接失效反馈

官方服务：

资源简介：

VENUS是一个大规模的多模态对话数据集，旨在帮助模型学习视频中的非言语线索。该数据集由来自对话丰富的播客的10分钟剪辑组成，包含两位参与者的互动。数据集包含与时间对齐的文本、面部表情和身体语言注释，通过语音识别模型生成转录文本，并单独提取和注释了伪3D运动参数，为面部表情和身体手势提供了详细的资源。该数据集的创建是为了解决现有对话数据集在规模或缺乏详细三维面部和身体语言信息方面存在的差距，以便更准确地模拟非言语线索，并生成更丰富、更符合上下文的对话。

VENUS is a large-scale multimodal dialogue dataset designed to assist models in learning non-verbal cues from videos. This dataset consists of 10-minute clips sourced from dialogue-rich podcasts, featuring interactions between two participants. The dataset includes time-aligned annotations for text, facial expressions, and body language. The transcribed text is generated via speech recognition models, while pseudo-3D motion parameters are separately extracted and annotated, providing detailed resources for facial expressions and body gestures. This dataset was developed to address the gaps in existing dialogue datasets, which either lack sufficient scale or detailed 3D facial and body language information, enabling more accurate simulation of non-verbal cues and the generation of richer, contextually consistent dialogues.

提供机构：

延世大学（Yonsei University）

创建时间：

2025-06-01

搜集汇总

数据集介绍

构建方式

VENUS数据集的构建过程体现了多模态数据处理的系统性。研究团队从YouTube播客视频中筛选出双人对话片段，通过轻量级检测模型初步过滤不含人物的视频。采用10分钟分段策略最大化信息提取，并利用WhisperX进行语音转文本处理，确保时间对齐。通过PyAnnote实现说话人分离，结合LightASD模型进行主动说话人检测，最终使用FLAME和SMPL-X模型分别提取面部表情和肢体动作的三维参数，形成文本与非语言特征的精确对齐。整个流程融合了音频分析与计算机视觉技术，构建了包含89000段对话的大规模语料库。

特点

VENUS的突出特点在于其多模态对齐的精细标注体系。作为目前最大规模的对话数据集，它不仅包含114万轮次的时间对齐文本，还创新性地标注了10亿级非语言特征，包括156维面部参数和179维肢体动作参数。数据覆盖21轮次以上的长对话场景，平均每段对话包含547帧非语言特征，能完整捕捉交流中的微表情和姿势变化。相比现有数据集，VENUS首次实现了文本、面部表情和肢体语言的三维同步标注，其播客来源确保了对话主题的多样性，从生活琐事到专业访谈均有涵盖，为研究真实场景下的多模态交互提供了丰富素材。

使用方法

使用VENUS时需要注重其多模态特性与层次化结构。数据集采用JSON格式组织，核心字段包含频道ID、视频分段、说话人边界框及有害内容标记。研究者可通过'Conversation'键获取时间对齐的文本流，结合'Facial expression'和'Body language'键调用对应的非语言特征矩阵。具体应用时建议分三步：首先利用WhisperX时间戳实现文本-视频帧对齐；其次通过SMPL-X参数重建三维动作；最后结合BERT-score等指标评估多模态生成效果。注意事项包括处理变长序列时的零值填充，以及利用'Harmful utterance ID'过滤敏感内容。该数据集特别适合训练类似MARS的多模态对话系统，通过联合优化文本与非语言标记的next-token预测任务，实现沉浸式交互生成。

背景与挑战

背景概述

VENUS数据集是由延世大学和NCSOFT Corporation的研究团队于2025年推出的一个大规模多模态对话数据集，专注于从视频对话中学习非语言线索。该数据集的创建旨在解决当前大型语言模型（LLMs）在理解和生成非语言交流元素（如手势、面部表情和身体语言）方面的局限性。VENUS包含大量标注的视频片段，这些片段来自富含对话的播客，涵盖了时间对齐的文本、面部表情和身体语言参数。通过提供这些多模态数据，VENUS为开发能够更自然、更沉浸式地进行对话的人工智能系统奠定了基础，并在虚拟人类、游戏和社交机器人等领域展现出广泛的应用潜力。

当前挑战

VENUS数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，VENUS旨在解决非语言交流在对话中的复杂性和多样性，包括如何准确捕捉和标注面部表情与身体语言的细微差别，以及如何将这些非语言线索与语言内容有效对齐。在构建过程中，挑战包括从视频中提取高质量的非语言数据、确保说话者身份的正确识别和跟踪，以及处理大规模数据的标注和存储问题。此外，数据集的多样性和代表性也是一个关键挑战，需要确保涵盖广泛的对话场景和非语言表达形式，以支持模型的泛化能力。

常用场景

经典使用场景

VENUS数据集在非语言交流研究中具有重要价值，尤其在多模态对话系统的开发中，该数据集通过整合时间对齐的文本、面部表情和身体语言，为研究者提供了一个全面的资源库。在对话生成和情感计算领域，VENUS能够帮助模型理解和生成与语境一致的非语言线索，从而提升对话系统的自然度和沉浸感。

衍生相关工作

VENUS数据集已经催生了一系列相关研究，尤其是在多模态对话生成和非语言行为建模领域。例如，基于VENUS开发的MARS模型能够同时生成文本和非语言行为，为多模态对话系统设立了新的基准。此外，该数据集还启发了对非语言线索量化方法的研究，如使用VQ-VAE对连续的面部和身体动作进行离散化表示，进一步推动了相关技术的发展。

数据集最近研究