ListenerX

Name: ListenerX
Creator: 北京邮电大学，中国北京市；香港科技大学，中国香港；中国科学院自动化研究所，中国北京市
Published: 2025-04-30 23:05:12
License: 暂无描述

arXiv2025-04-30 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.21718v1

下载链接

链接失效反馈

官方服务：

资源简介：

ListenerX是一个大规模的3D对话数据集，包含了超过140万个有效帧，用于多模态响应交互。该数据集由北京邮电大学、香港科技大学和中国科学院自动化研究所共同创建。数据集内容涵盖了高质量的长期对话视频片段，包括对话双方的头部动作、说话人的音频、详细的文本描述以及情感强度标签。ListenerX的创建过程采用了先进的3D面部角色估计方法和面部表情分析技术，确保了数据集的准确性和多样性。该数据集旨在解决目前多模态响应交互中数据集稀缺的问题，为人类交互分析、说话人脸生成和响应交互建模等下游任务提供了基础。

ListenerX is a large-scale 3D dialogue dataset containing over 1.4 million valid frames for multimodal response interaction. This dataset was jointly created by Beijing University of Posts and Telecommunications, The Hong Kong University of Science and Technology, and the Institute of Automation of the Chinese Academy of Sciences. The dataset covers high-quality long-duration conversational video clips, including head movements of both conversational parties, audio of the speakers, detailed textual descriptions, and emotion intensity labels. The construction of ListenerX adopts advanced 3D facial character estimation methods and facial expression analysis technologies to ensure the accuracy and diversity of the dataset. This dataset aims to address the current scarcity of datasets in multimodal response interaction, providing a foundational resource for downstream tasks such as human interaction analysis, talking face generation, and response interaction modeling.

提供机构：

北京邮电大学，中国北京市；香港科技大学，中国香港；中国科学院自动化研究所，中国北京市

创建时间：

2025-04-30

搜集汇总

数据集介绍

构建方式

在构建ListenerX数据集时，研究团队从真实场景的视频中提取了长期且连续的对话片段，确保对话双方的面部在整个互动过程中完全可见。这些片段要求说话者至少清晰表达两句话，而听者需表现出动态反应而非单调回应。通过采用先进的3D面部虚拟估计方法（如FLAME），研究团队提取了高质量的面部表情和头部姿态参数。此外，结合传统检测模型和视觉语言模型，生成了细粒度和情感感知的面部表情描述，同时利用面部情感分析技术获取了连续的情感强度标签（如Valence和Arousal），从而为每帧数据提供了丰富的情感标注。

使用方法

ListenerX数据集的使用方法涵盖了多个层面。研究人员可以通过加载数据集中的3D头部运动参数、音频信号和情感标注，训练生成式模型（如VividListener框架）以实现听者动态的生成。具体而言，模型输入包括说话者的头部运动和音频信息，以及听者的文本描述和情感强度标签，输出为听者的头部动态序列。此外，数据集还支持情感强度编辑和多模态条件控制，用户可通过调整情感标签或替换文本描述，灵活生成具有不同情感表现力的听者反应。实验表明，该数据集在生成真实、多样且与说话者节奏同步的听者动态方面表现卓越。

背景与挑战

背景概述

ListenerX数据集由北京邮电大学、香港科技大学和中国科学院自动化研究所的研究团队于2025年提出，旨在解决多模态响应交互中听众动态建模的精细化控制问题。该数据集包含140万帧三维对话序列，整合了头部运动参数、语音信号、细粒度文本描述及情感强度标注，突破了传统对话建模中短期行为生成和粗粒度情感控制的局限。作为目前规模最大的长序列听众动态数据集，ListenerX通过融合FLAME面部参数与视觉语言模型标注技术，为虚拟化身动画、人机交互等领域提供了高质量的研究基准。

当前挑战

ListenerX数据集面临的核心挑战体现在两个维度：在领域问题层面，长序列对话中听众情感的动态波动（如从兴奋到沮丧的渐变）要求模型具备细粒度的情感强度调控能力，而现有方法多局限于基础情感分类；在构建过程中，从自然场景视频提取连续对话片段时，需确保参与者头部全程可见且听众反应具有动态多样性，这对数据清洗提出了极高要求。此外，基于视觉语言模型生成的面部表情描述存在准确性问题，需结合面部动作单元检测器进行双重校验，显著增加了标注复杂度。

常用场景

经典使用场景

ListenerX数据集在虚拟角色动画和对话建模领域具有广泛的应用价值。该数据集通过捕捉真实对话场景中的3D头部运动和情感变化，为研究者提供了丰富的多模态数据。其最经典的使用场景是用于训练和评估生成式模型，以模拟听众在对话中的动态反应。例如，在虚拟角色动画中，该数据集可用于生成具有细腻情感和自然反应的虚拟听众，从而提升人机交互的真实感。此外，该数据集还广泛应用于情感计算、非语言行为分析和多模态对话系统等领域。

解决学术问题

ListenerX数据集解决了对话建模中的多个关键学术问题。首先，它填补了长期对话序列中听众动态建模的数据空白，为研究者提供了高质量的3D头部运动和情感标签。其次，数据集中的多模态注释（如文本描述和情感强度标签）使得研究者能够进行细粒度的情感控制和分析。此外，该数据集还支持复杂情感变化的建模，例如情感波动和动态转换，这在以往的短序列数据集中难以实现。这些特性使得ListenerX成为推动对话建模和情感计算研究的重要资源。

实际应用

ListenerX数据集在实际应用中表现出广泛的潜力。在虚拟现实和增强现实领域，该数据集可用于开发更具表现力的虚拟角色，提升用户体验。例如，在在线教育或远程会议中，虚拟听众的自然反应可以增强互动性和参与感。此外，该数据集还可用于机器人交互，帮助机器人更好地理解和模拟人类情感反应。在心理健康领域，ListenerX的数据可用于开发情感识别和干预工具，辅助心理治疗和情感支持。

数据集最近研究