audio-driven portrait DPO dataset
收藏arXiv2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/xyz123xyz456/hallo4
下载链接
链接失效反馈官方服务:
资源简介:
本研究提出了一个名为Hallo4的高保真动态肖像动画生成框架,旨在解决基于音频和骨骼运动的肖像动画中嘴唇同步、面部表情自然性和身体运动动态的真实性问题。该框架通过两个关键创新来应对这些挑战:首先,引入了针对以人为中心的动画的直接偏好优化,利用一个精心策划的人类偏好数据集来调整生成输出,以与肖像运动视频对齐和表情自然性的感知指标相一致。其次,所提出的时序运动调制通过时序通道重新分配和特征扩展来重塑运动条件,将其转换为维度对齐的潜在特征,从而解决了时空分辨率不匹配的问题,同时保留了基于扩散的合成中高频运动细节的真实性。实验结果表明,与基线方法相比,该方法在嘴唇音频同步、表情生动性和身体运动连贯性方面取得了明显的改进,并在人类偏好指标方面取得了显著提升。本研究构建了一个音频驱动的肖像DPO数据集,用于捕捉人类在两个关键维度上的偏好:肖像-视频同步的准确性和面部表情和姿势的自然性。该数据集通过“最好与最差”排名策略和直接偏好优化,优化了生成策略,以最大化轨迹级奖励差距,同时规范了对基本扩散模型去噪动力学的偏差,从而显著提高了嘴唇同步准确性和面部表情表现力。
This study proposes a high-fidelity dynamic portrait animation generation framework named Hallo4, which aims to address the issues of lip synchronization, naturalness of facial expressions, and authenticity of bodily motion dynamics in audio and skeleton motion-driven portrait animations. This framework addresses these challenges via two key innovations: First, Direct Preference Optimization (DPO) tailored for human-centric animation is introduced, which uses a carefully curated human preference dataset to adjust the generated outputs to align with the perceptual metrics of portrait motion video alignment and facial expression naturalness. Second, the proposed temporal motion modulation reshapes the motion conditions via temporal channel reassignment and feature expansion, converting them into dimension-aligned latent features, which solves the problem of spatiotemporal resolution mismatch while preserving the authenticity of mid-to-high frequency motion details in diffusion-based synthesis. Experimental results show that compared with baseline methods, the proposed method achieves significant improvements in audio-lip synchronization, expressiveness of facial expressions, and bodily motion coherence, as well as remarkable enhancements in human preference metrics. This study constructs an audio-driven portrait DPO dataset, which is used to capture human preferences across two key dimensions: the accuracy of portrait-video synchronization and the naturalness of facial expressions and poses. This dataset optimizes the generation strategy via the "best-worst" ranking strategy and Direct Preference Optimization to maximize the trajectory-level reward gap, while regularizing the deviation from the denoising dynamics of the base diffusion model, thereby significantly improving the accuracy of lip synchronization and the expressiveness of facial expressions.
提供机构:
复旦大学, 百度公司, 南京大学, 阿里巴巴集团
创建时间:
2025-05-29
原始信息汇总
Hallo4数据集概述
基本信息
- 数据集名称:Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation
- 状态:即将发布(Coming soon)
技术特点
- 高保真动态肖像动画
- 采用直接偏好优化技术
- 包含时间运动调制功能
当前状态
- 数据集详情尚未发布
- 项目处于准备阶段
搜集汇总
数据集介绍

构建方式
在音频驱动肖像动画领域,构建高质量的动态数据集面临诸多挑战。本研究通过精心设计的人类偏好数据集构建方法,采用多阶段数据筛选策略:首先从Celeb-V、HDTF和YouTube等平台收集220小时原始视频数据,随后通过五类代表性方法(包括GAN基、UNet基和DiT基架构)生成候选视频。专业标注人员基于运动-视频对齐度和肖像保真度两个关键维度,采用5级Likert量表进行双盲评估,最终通过'最佳-最差'策略构建包含2万对样本的偏好数据集,确保数据质量与区分度。
特点
该数据集具有三个显著特征:多维度评估体系同时考量唇部同步精度与表情自然度,采用复合奖励机制r=1/2(ralign+rfidelity)实现综合评价;样本覆盖多样性,包含不同种族、光照条件和语音节奏的复杂场景;时间维度精细处理,通过特征通道比例扩展技术保留高频运动细节,解决了传统时间下采样导致的信息丢失问题。特别值得注意的是,数据集在快速语音和突发肢体动作等挑战性场景中仍保持优异表现。
使用方法
该数据集主要应用于扩散模型的直接偏好优化(DPO)训练。使用时分两个阶段:首先基于监督微调初始化参考策略πref,随后通过KL约束的奖励函数优化生成策略πθ。具体操作时,将公式(4)的DPO目标函数与基础去噪动态相结合,通过梯度更新调整去噪轨迹。对于DiT架构,采用公式(5)的流匹配形式DPO损失,使预测速度场逼近人类偏好样本。数据集支持UNet和DiT双架构验证,用户可根据需要选择适当骨干网络进行偏好对齐训练。
背景与挑战
背景概述
音频驱动肖像动画数据集(audio-driven portrait DPO dataset)由复旦大学等机构的研究团队于2025年提出,旨在解决高动态、高保真肖像动画生成中的关键问题。该数据集专注于通过直接偏好优化(DPO)技术,提升音频驱动的肖像动画在唇部同步、面部表情自然度以及身体运动动态方面的表现。研究团队通过精心设计的人类偏好数据集,优化生成模型的输出,使其更符合人类感知标准,从而在数字娱乐、虚拟现实和人机交互等领域展现出重要应用价值。
当前挑战
该数据集面临的挑战主要包括两个方面:1) 领域问题挑战:音频驱动肖像动画需要精确的唇部同步、自然的面部表情以及高保真的身体运动动态,这些要求在快速语音或突然手势等复杂场景下尤为突出;2) 构建过程挑战:在数据收集和标注过程中,需要处理多模态控制信号(如音频和骨骼运动序列)的时序对齐问题,同时确保人类偏好数据的质量和一致性,这对数据集的构建提出了较高要求。此外,如何将高频率的运动细节保留在基于扩散模型的合成中,也是一个技术难点。
常用场景
经典使用场景
在计算机视觉与图形学的交叉领域,audio-driven portrait DPO数据集为高保真度肖像动画生成提供了关键基准。该数据集通过精心设计的人类偏好标注,特别适用于评估音频驱动的唇部同步精度与面部表情自然度,成为优化生成式扩散模型的首选测试平台。其多模态特性支持同时分析语音波形与骨骼运动序列对动画质量的影响,为研究者提供了细粒度的性能评估维度。
解决学术问题
该数据集有效解决了肖像动画领域长期存在的两大难题:人类感知对齐与高频运动保持。通过直接偏好优化(DPO)框架,它建立了生成输出与人类审美评判之间的映射关系,显著提升了唇音同步的客观指标(Sync-C/Sync-D)和表情自然度(E-FID)。其时间运动调制机制突破了传统VAE编码的时序分辨率限制,在DiT架构中实现了细微表情与快速手势的精准合成,为动态肖像生成设立了新的技术标准。
衍生相关工作
该数据集催生了多个标志性研究工作,包括Hallo系列扩散框架的迭代优化与FantasyTalking等DiT基模型的性能提升。基于其构建的DPO优化范式被扩展至VideoDPO等视频生成系统,而统一时间调制机制启发了EasyControl等运动条件注入方法。相关技术路线已形成完整的学术谱系,推动着EMTD等骨骼动画数据集向更高频运动捕捉方向发展。
以上内容由遇见数据集搜集并总结生成



