DualTalk
收藏arXiv2025-05-24 更新2025-05-27 收录
下载链接:
https://ziqiaopeng.github.io/dualtalk
下载链接
链接失效反馈官方服务:
资源简介:
DualTalk数据集是一个专注于双讲者多轮交互的3D人脸数据集,由中国人民大学、蚂蚁集团、清华大学和北京未来区块链与隐私计算高精尖创新中心联合创建。该数据集包含约50小时的对话数据,涉及超过1000个独特的身份,每个身份参与多轮对话,平均每轮对话时长为2.5分钟。数据集以高质量视频、精确音频和详细的面部表情系数捕获,为双讲者交互的3D人脸生成提供了一个重要的基准。
The DualTalk dataset is a 3D facial dataset focused on multi-turn interactions between two speakers, jointly developed by Renmin University of China, Ant Group, Tsinghua University, and Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing. This dataset contains approximately 50 hours of conversational data, involving over 1,000 unique identities, each participating in multiple rounds of dialogues with an average duration of 2.5 minutes per dialogue turn. Captured with high-quality video, precise audio, and detailed facial expression coefficients, the dataset serves as a critical benchmark for 3D facial generation in two-speaker interactions.
提供机构:
中国人民大学、蚂蚁集团、清华大学、北京未来区块链与隐私计算高精尖创新中心
创建时间:
2025-05-24
原始信息汇总
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
数据集概述
- 任务目标: 多轮双说话人交互的3D说话头生成,要求模型在连续对话中处理和生成说话和倾听行为。
- 核心功能: 支持说话和倾听角色切换,提供自适应非语言反馈,增强虚拟对话的自然性和真实感。
数据集详情
- 数据量: 50小时的多轮对话。
- 角色数量: 超过1,000个角色。
- 数据特点: 参与者持续在说话和倾听角色之间切换。
技术框架
- DualTalk框架:
- Dual-Speaker Joint Encoder
- Cross-Modal Temporal Enhancer
- Dual-Speaker Interaction Module
- Expressive Synthesis Module
- 优势: 支持说话和倾听角色转换、多轮对话和自然交互。
相关论文
- 标题: DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
- 作者: Ziqiao Peng, Yanbo Fan, Haoyu Wu, Xuan Wang, Hongyan Liu, Jun He, Zhaoxin Fan
- 会议: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition
- 年份: 2025
许可信息
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International License
搜集汇总
数据集介绍

构建方式
DualTalk数据集的构建过程采用了严谨的多模态数据采集与处理流程。研究团队首先采集了50小时的双人对话视频,涉及1000多个独特身份参与者,每个会话平均包含2.5轮对话。通过视觉引导的语音分离技术实现了双声道音频的精确分离,同时采用面部网格跟踪器获取高精度的3D面部表情系数。数据预处理管道包含视频片段分割、说话人分离、3D面部网格追踪等关键步骤,确保了多模态数据的时空对齐。
特点
该数据集最显著的特点是突破了传统单角色模型的局限,完整记录了对话双方在说话者与倾听者角色间动态转换的过程。数据集包含双通道音频流、高精度视频和详细的面部表情系数,支持对非语言反馈(如点头、微笑)的细粒度分析。与现有数据集相比,其多轮对话特性(最高达6轮以上)和丰富的身份多样性(1000+独特身份)为研究真实对话动态提供了前所未有的数据基础。
使用方法
DualTalk数据集主要应用于多轮双人交互式3D说话头生成任务的训练与评估。使用时需同时加载双通道音频和对应的3D面部网格数据,通过框架中的联合编码器处理多模态输入。数据集已划分为训练集(4935个片段)、测试集(539个片段)和分布外测试集(384个片段),支持模型在已知和未知说话人条件下的性能验证。特别适用于需要建模角色转换和持续交互场景的研究。
背景与挑战
背景概述
DualTalk数据集由中国人民大学、蚂蚁集团等机构的研究团队于2025年提出,旨在解决三维说话头生成领域中双人交互对话的建模难题。该数据集包含50小时的多轮对话数据,涵盖1000多个独特身份,首次实现了对说话者与倾听者角色动态转换的完整捕捉。作为首个支持面对面、多轮交互的三维面部网格数据集,其创新性地采用双通道音频分离技术,为对话行为分析提供了精准的多模态同步数据。该数据集的建立突破了传统单角色建模的局限,为人机交互、虚拟客服等应用场景提供了更自然的对话模拟基础。
当前挑战
DualTalk数据集面临的核心挑战主要体现在领域问题与构建过程两个维度。在领域问题层面,需解决双人对话中非语言反馈的时序建模难题,包括微表情响应(如点头、微笑)与语音内容的跨模态对齐,这对现有单角色模型的静态输出特性提出了根本性质疑。构建过程中,多轮对话数据的采集需克服双通道音频分离的技术瓶颈,确保每位说话者音频流的纯净度;同时,三维面部动作系数的标注需要处理高达56维的混合形状参数,这对运动捕捉设备的精度与数据处理算法提出了极高要求。此外,数据集中2.5轮的平均对话长度设计,还需平衡短时反应与长时上下文依赖的建模矛盾。
常用场景
经典使用场景
DualTalk数据集在3D对话头生成领域具有广泛的应用场景,尤其在模拟真实对话中的角色转换方面表现突出。该数据集通过捕捉50小时的多轮对话数据,包含1000多个独特身份的双通道音频和3D面部网格数据,为研究者和开发者提供了丰富的资源。其经典使用场景包括模拟自然对话中的说话者和倾听者角色转换,生成连贯且富有表现力的面部动画,从而提升虚拟对话代理的真实感和互动性。
解决学术问题
DualTalk数据集解决了传统3D对话头生成模型中存在的关键问题,即无法自然模拟说话者和倾听者角色之间的动态转换。传统模型通常独立处理说话或倾听行为,导致对话过程中出现不自然的过渡和互动。DualTalk通过整合双说话者的动态行为,提供了统一的框架,能够生成连贯且富有表现力的多轮对话动画。这一突破显著提升了虚拟对话代理的自然性和情感表达,为计算机视觉和人机交互领域的研究提供了重要支持。
衍生相关工作
DualTalk数据集的推出催生了一系列相关研究,尤其是在多轮对话和双说话者交互领域。例如,基于该数据集的研究工作进一步优化了音频驱动面部动画的生成技术,提出了更高效的跨模态对齐方法。此外,一些研究还探索了如何结合情感识别技术,使生成的3D对话头更具表现力。这些衍生工作不仅扩展了DualTalk的应用范围,还推动了3D对话头生成技术的整体发展。
以上内容由遇见数据集搜集并总结生成



