HunyuanVideo-Avatar

Name: HunyuanVideo-Avatar
Creator: 腾讯混元
Published: 2025-05-26 23:57:27
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://hunyuanvideo-avatar.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

HunyuanVideo-Avatar数据集由腾讯混元实验室创建，旨在解决音频驱动人物动画中的关键挑战。该数据集包含多个角色，可以生成动态、情感可控的多角色对话视频。数据集应用了多模态扩散Transformer（MM-DiT）模型，并引入了三个关键创新模块：角色图像注入模块、音频情感模块和面向音频适配器。这些模块使得HunyuanVideo-Avatar在基准数据集和新提出的野外观测数据集上超越现有方法，能够生成在动态、沉浸式场景中逼真的虚拟形象。

The HunyuanVideo-Avatar dataset was developed by Tencent Hunyuan Lab to address core challenges in audio-driven human animation. This dataset supports multiple characters and can generate dynamic, emotion-controllable multi-character conversational videos. It adopts the Multimodal Diffusion Transformer (MM-DiT) model and introduces three key innovative modules: the character image injection module, audio emotion module, and audio-oriented adapter. These modules enable HunyuanVideo-Avatar to outperform existing approaches on both benchmark datasets and the newly proposed real-world observation dataset, producing realistic virtual avatars in dynamic and immersive scenes.

提供机构：

腾讯混元

创建时间：

2025-05-26

原始信息汇总

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

基本信息

开发团队: Tencent Hunyuan, Tencent Music Entertainment Lyra Lab
相关链接:
- arXiv
- Github
- Hugging Face
- Try It Now

摘要

HunyuanVideo-Avatar是一种基于多模态扩散变换器(MM-DiT)的模型，能够同时生成动态、情感可控的多角色对话视频。主要解决以下挑战：

生成高动态视频同时保持角色一致性
实现角色与音频之间的精确情感对齐
支持多角色音频驱动动画

关键技术

角色图像注入模块
- 取代传统的基于加法的角色条件方案
- 消除训练和推理之间的条件不匹配
- 确保动态运动和强角色一致性
音频情感模块(AEM)
- 从情感参考图像中提取和转移情感线索
- 实现细粒度和准确的情感风格控制
面部感知音频适配器(FAA)
- 通过潜在级面部掩码隔离音频驱动角色
- 通过交叉注意力实现多角色场景的独立音频注入

性能表现

在基准数据集和新提出的wild数据集上超越最先进方法
能在动态、沉浸式场景中生成逼真的虚拟形象

参考文献

bibtex @misc{chen2025hunyuanvideoavatarhighfidelityaudiodrivenhuman, title={HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters}, author={Yi Chen and Sen Liang and Zixiang Zhou and Ziyao Huang and Yifeng Ma and Junshu Tang and Qin Lin and Yuan Zhou and Qinglin Lu}, year={2025}, eprint={2505.20156}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.20156}, }

搜集汇总

数据集介绍

构建方式

HunyuanVideo-Avatar数据集的构建采用了多阶段训练策略，结合了音频与图像数据的混合训练模式。在初始阶段，模型通过纯音频数据进行基础训练，以建立音频与视觉之间的基本对齐。随后，采用1:1.5比例的音频与图像混合数据，增强生成动作的稳定性。数据集分辨率范围从704×704到704×1216，确保了高质量的视觉输出。此外，通过LatentSync和Koala-36M等工具对数据进行了严格筛选，剔除了异步或低质量的样本，最终形成了包含500,000个样本、总时长约1,250小时的高质量训练集。

特点

HunyuanVideo-Avatar数据集的核心特点在于其能够同时支持多角色动画生成与精细情感控制。通过创新的角色图像注入模块，该数据集在保持角色一致性的同时，显著提升了生成视频的动态表现力。音频情感模块（AEM）的引入，使得角色的面部表情能够精确反映音频中的情感线索，从而增强了动画的真实感。此外，面向多角色场景设计的Face-Aware Audio Adapter（FAA）通过潜在空间的面部掩码技术，实现了对不同角色的独立音频驱动，为复杂的多角色对话场景提供了高效的解决方案。

使用方法

使用HunyuanVideo-Avatar数据集时，用户需提供参考图像、驱动音频及角色面部掩码作为输入。模型基于HunyuanVideo-I2V框架，通过多模态扩散变换器（MM-DiT）生成单角色或多角色的对话视频。具体操作中，角色图像注入模块确保动态动作与角色一致性，AEM模块实现情感对齐，而FAA模块则支持多角色独立驱动。生成过程支持长视频合成，通过时间感知的位置偏移融合技术，有效减少了视频抖动与过渡突兀的问题。用户可通过调整情感参考图像或音频输入，灵活控制生成视频的情感表达与角色互动。

背景与挑战

背景概述

HunyuanVideo-Avatar是由腾讯混元团队于2025年提出的高保真音频驱动多人动画生成数据集，旨在解决音频驱动人类动画领域的三个核心挑战：保持角色一致性的同时生成高度动态视频、实现角色与音频情感的精确对齐、以及支持多角色音频驱动动画。该数据集基于多模态扩散变换器（MM-DiT）架构，通过创新的角色图像注入模块、音频情感模块和面部感知音频适配器，在基准测试和新提出的野生数据集上超越了现有最先进方法。其技术突破为影视制作、虚拟现实等需要高真实感数字人交互的场景提供了重要支持，标志着音频驱动动画从单角色肖像向多角色全身动画的重要演进。

当前挑战

在领域问题层面，HunyuanVideo-Avatar需攻克三大挑战：动态运动与角色稳定性的平衡难题，传统方法常导致运动僵硬或身份特征丢失；跨模态情感对齐的精确控制问题，现有方案难以实现音频情感与面部微表情的细粒度匹配；多角色独立驱动的技术瓶颈，常规注意力机制会导致音频信号在角色间的干扰。在构建过程中，团队面临数据处理的复杂性挑战：需从1250小时原始视频中筛选50万样本，运用LatentSync解决音画异步问题，并采用Koala-36M过滤低质量帧；模型训练需要协调160块96GB显存GPU的分布式计算，处理704×1216高分辨率数据时面临内存优化压力；长视频生成存在时间连贯性保持的挑战，需开发时间感知的位置偏移融合算法来避免画面抖动。

常用场景

经典使用场景

HunyuanVideo-Avatar数据集在音频驱动的人类动画生成领域具有广泛的应用场景。其最经典的使用场景包括多角色对话视频生成、情感控制动画以及多样化的角色风格动画。通过输入角色图像和音频，该数据集能够生成高度一致且动态的人类动画，精准反映音频中表达的情感。这一特性使其在影视制作、虚拟角色交互以及教育娱乐等领域具有重要价值。

实际应用

在实际应用方面，HunyuanVideo-Avatar数据集为多个行业提供了创新解决方案。在影视制作中，它能够快速生成具有情感表达的多角色对话场景；在虚拟主播领域，可实现高度自然的音频驱动动画；在教育领域，可创建生动形象的教学内容；在游戏开发中，则为NPC角色赋予了更丰富的表情和动作。这些应用显著提升了人机交互的自然度和用户体验。

衍生相关工作

HunyuanVideo-Avatar数据集衍生了一系列相关研究工作。在音频驱动肖像动画方面，SadTalker、Hallo和V-Express等研究借鉴了其情感对齐和动态生成的思想；在全身动画领域，DiffTED和CyberHost等研究参考了其多角色驱动和运动建模的方法。这些衍生工作进一步推动了音频驱动动画技术的发展，形成了从肖像到全身、从单角色到多角色的完整研究体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集