Multi-Expr

Name: Multi-Expr
Creator: 阿里巴巴集团
Published: 2025-07-17 17:50:43
License: 暂无描述

arXiv2025-07-17 更新2025-07-19 收录

下载链接：

https://fantasy-amap.github.io/fantasy-portrait/

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Expr是一个专为多人物肖像动画训练和评估设计的视频数据集，包含约3万个高质量的视频剪辑，每个视频剪辑都附有描述性标题。该数据集由OpenVid-1M和OpenHumanVid数据集筛选而来，经过多人物过滤、质量控制以及面部表情选择等步骤处理，确保了数据集的质量和适用性。数据集主要用于训练和评估多人物肖像动画，旨在解决多人物动画中特征干扰的问题，以及现有方法难以捕捉细微情感和复杂情绪的问题。

Multi-Expr is a video dataset specifically designed for the training and evaluation of multi-person portrait animation. It contains approximately 30,000 high-quality video clips, each accompanied by a descriptive title. This dataset is curated from the OpenVid-1M and OpenHumanVid datasets, and has undergone processing steps including multi-person filtering, quality control, and facial expression selection to ensure its quality and applicability. The dataset is primarily used for training and evaluating multi-person portrait animation, aiming to address the issue of feature interference in multi-person animation as well as the difficulty of existing methods in capturing subtle and complex emotions.

提供机构：

阿里巴巴集团

创建时间：

2025-07-17

原始信息汇总

FantasyPortrait 数据集概述

基本信息

数据集名称: FantasyPortrait
研究团队:
- Qiang Wang*, Mengchao Wang*, Fan Jiang† (AMAP, Alibaba Group)
- Yaqi Fan, YongGang Qi‡ (北京邮电大学)
论文标题: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
arXiv链接: https://arxiv.org/abs/2507.12956
年份: 2025

核心功能

多角色肖像动画: 支持通过单人多视频或多人单视频驱动多角色生成细腻表情和逼真动画
多样化角色风格: 可生成动态、富有表现力且自然逼真的风格化视频
动物动画泛化: 未专门训练动物数据但展现强泛化能力
音频驱动扩展: 通过Whisper编码音频，小规模样本即可支持多语言/方言适配

技术创新

表达增强学习策略: 使用隐式表征捕捉身份无关的面部动态
掩码交叉注意力机制: 实现多角色独立且协调的表情生成
贡献资源:
- Multi-Expr数据集 (多角色面部表情数据)
- ExprBench评估基准

性能优势

在跨身份重演和多角色场景中显著优于现有方法
仅需数百样本和约1 GPU小时即可适配新语言
特别擅长处理复杂情感表达和跨身份重演任务

搜集汇总

数据集介绍

构建方式

Multi-Expr数据集是针对多角色肖像动画任务而构建的高质量视频数据集，其构建过程采用了严谨的数据筛选流程。该数据集从OpenVid-1M和OpenHumanVid两个公开视频资源中提取素材，首先通过YOLOv8模型检测视频中的人物数量，保留包含两个及以上角色的片段。随后采用美学评分和拉普拉斯算子进行质量过滤，剔除模糊或存在伪影的低质量片段。最后基于MediaPipe检测的面部关键点，计算面部关键点的角度和运动变化，筛选出具有清晰表情变化的视频片段。整个数据集包含约30,000个高质量视频片段，每个片段都配有CogVLM2生成的描述性标注。

特点

Multi-Expr数据集具有三个显著特点：其多角色特性填补了现有面部动画数据集中缺乏多人交互场景的空白；通过严格的质量控制流程确保了数据的清晰度和表现力；丰富的表情标注为细粒度情感分析提供了可能。数据集涵盖了广泛的人类表情变化，包括细微的眼部动作、复杂的唇部运动以及多样化的头部姿态，特别适合训练需要区分个体特征的多人动画生成模型。与传统的单角色数据集相比，该数据集更贴近实际应用中多人互动的真实场景。

使用方法

Multi-Expr数据集主要用于训练和评估多角色肖像动画生成模型。研究人员可将视频片段输入模型进行表情特征提取训练，利用标注信息监督模型学习细粒度的表情控制。在评估阶段，该数据集可作为基准测试模型在多角色场景下的生成质量，包括表情保真度、个体特征独立性等指标。使用时应将视频分割为训练集和测试集，注意保持不同身份样本的平衡分布。对于跨身份重演任务，可将不同角色的驱动视频与目标肖像进行组合测试，评估模型的泛化能力。

背景与挑战

背景概述

Multi-Expr数据集由阿里巴巴集团与北京邮电大学的研究团队于2025年提出，旨在解决多角色肖像动画生成领域的关键问题。该数据集基于OpenVid-1M和OpenHumanVid构建，包含约30,000个高质量视频片段，专门针对跨身份重演和细微情感捕捉的挑战而设计。研究团队通过引入隐式表情表征和掩码交叉注意力机制，显著提升了多角色场景下的动画生成质量，为影视制作、虚拟社交等应用场景提供了重要技术支持。

当前挑战

Multi-Expr数据集面临的核心挑战体现在两个方面：在领域问题层面，需解决跨身份重演中的几何差异导致的运动失真问题，以及多角色场景下特征相互干扰导致的表达泄漏现象；在构建过程中，需克服视频片段的质量控制难题，包括通过拉普拉斯算子消除模糊片段，以及基于面部关键点运动变化筛选有效表情序列的技术挑战。

常用场景

经典使用场景

Multi-Expr数据集在肖像动画生成领域具有广泛的应用场景，特别是在多角色表情同步控制方面表现突出。该数据集通过捕捉丰富的面部表情动态，为生成高保真、情感丰富的动画提供了坚实基础。其经典使用场景包括电影制作中的多角色互动动画、虚拟通信中的表情驱动视频生成，以及游戏开发中的角色表情动画设计。数据集中的高质量视频片段和精细标注为这些场景提供了可靠的数据支持。

衍生相关工作

基于Multi-Expr数据集，研究者们已经开展了一系列创新性工作。FantasyPortrait框架利用该数据集实现了基于扩散变换器的多角色动画生成，引入了掩码交叉注意力机制来防止特征干扰。此外，ExprBench评估基准的建立也得益于该数据集，为多角色表情动画提供了标准化测试平台。这些衍生工作不仅验证了数据集的价值，也推动了肖像动画生成技术的整体进步。

数据集最近研究