Multi-Expr Dataset

github2025-08-12 更新2025-08-14 收录

下载链接：

https://github.com/Fantasy-AMAP/fantasy-portrait

下载链接

链接失效反馈

官方服务：

资源简介：

我们公开了第一个多肖像面部表情视频数据集Multi-Expr Dataset，请通过ModelScope或Huggingface下载。

We have publicly released the first multi-portrait facial expression video dataset, Multi-Expr Dataset, which can be downloaded via ModelScope or Huggingface.

创建时间：

2025-07-17

原始信息汇总

FantasyPortrait数据集概述

数据集基本信息

项目名称: FantasyPortrait
核心功能: 通过Expression-Augmented Diffusion Transformers增强多角色肖像动画
发布日期: 2025年8月12日
相关资源:
- 论文: arXiv:2507.12956
- 项目主页: FantasyPortrait
- 模型仓库: HuggingFace | ModelScope
- 数据集仓库: HuggingFace | ModelScope

数据集特点

首个公开的多肖像面部表情视频数据集 (Multi-Expr Dataset)
支持单人/多人肖像动画生成
包含动物角色动画示例

技术指标

基础模型: Wan2.1-I2V-14B-720P
性能基准 (A100单卡):
- torch.bfloat16精度:
  - 无参数限制: 15.5s/it, 40G显存
  - 7B参数限制: 32.8s/it, 20G显存
  - 0参数限制: 42.6s/it, 5G显存

使用方式

快速开始

环境安装: sh git clone https://github.com/Fantasy-AMAP/fantasy-portrait.git cd fantasy-portrait apt-get install ffmpeg pip install -r requirements.txt flash_attn
模型下载: sh

HuggingFace方式

huggingface-cli download Wan-AI/Wan2.1-I2V-14B-720P --local-dir ./models/Wan2.1-I2V-14B-720P huggingface-cli download acvlab/FantasyPortrait --local-dir ./models

ModelScope方式

modelscope download Wan-AI/Wan2.1-I2V-14B-720P --local_dir ./models/Wan2.1-I2V-14B-720P modelscope download amap_cvlab/FantasyPortrait --local_dir ./models

推理执行:

单人肖像: bash infer_single.sh
多人肖像(同驱动视频): bash infer_multi.sh
多人肖像(不同驱动视频): bash infer_multi_diff.sh

引用格式

bibtex @article{wang2025fantasyportrait, title={FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers}, author={Wang, Qiang and Wang, Mengchao and Jiang, Fan and Fan, Yaqi and Qi, Yonggang and Xu, Mu}, journal={arXiv preprint arXiv:2507.12956}, year={2025} }

致谢

受惠于Wan2.1
PD-FGC
DiffSynth-Studio等开源项目

搜集汇总

数据集介绍

构建方式

Multi-Expr Dataset作为首个多角色肖像面部表情视频数据集，其构建过程融合了先进的计算机视觉技术与深度学习框架。研究团队通过精心设计的采集流程，捕捉了多样化的面部表情变化，并采用高精度标注工具对视频序列中的关键帧进行细致标注。数据集构建过程中特别注重多角色交互场景的覆盖，运用了基于扩散变换器的增强技术来提升数据的多样性和真实性。

特点

该数据集的核心特点在于其多角色交互场景的全面覆盖与高精度表情标注。数据集包含了从单人肖像到多人互动的丰富场景，每段视频均配有精确到帧的表情标签。特别值得注意的是，数据集突破了传统单角色表情数据的局限，通过引入多角色同步表情变化序列，为研究复杂社交互动中的非语言交流提供了独特资源。数据的高清画质与多样化场景设置进一步增强了其在动画生成领域的应用价值。

使用方法

使用Multi-Expr Dataset需要先通过ModelScope或Huggingface平台下载完整数据包。研究人员可结合提供的FantasyPortrait模型框架进行多角色肖像动画生成实验。数据集支持两种典型应用场景：当输入为多人图像时，可直接使用infer_multi.sh脚本；若需融合不同单人驱动视频，则适用infer_multi_diff.sh方案。实验环境建议配置A100级别GPU，并根据显存容量灵活调整torch_dtype参数以优化性能。

背景与挑战

背景概述

Multi-Expr Dataset作为首个专注于多角色肖像动画表情增强的数据集，由阿里巴巴集团的研究团队于2025年8月正式发布。该数据集依托于FantasyPortrait项目，旨在解决生成式人工智能在复杂多角色场景下面临的表情同步与个性化动画合成的核心问题。研究团队通过融合扩散变换器与表情增强技术，显著提升了多角色肖像动画的生成质量与表现力，为计算机视觉与图形学交叉领域提供了重要的基准数据。数据集的开源迅速吸引了学术界与工业界的广泛关注，其创新性的标注框架为后续的生成式动画研究奠定了新的技术范式。

当前挑战

在解决多角色肖像动画生成问题时，数据集需应对角色间表情交互的复杂动力学建模挑战，包括不同角色面部特征的异步表达与协调控制。构建过程中，研究团队面临多模态数据对齐的技术瓶颈，需精确捕捉高分辨率视频帧中细微的表情变化，同时保持跨角色身份特征的一致性。此外，大规模表情数据的采集与标注需要克服时空同步精度与计算资源消耗之间的平衡难题，这对数据集的规模扩展与质量保证提出了双重考验。

常用场景

经典使用场景

Multi-Expr Dataset作为首个多角色肖像面部表情视频数据集，在角色动画生成领域具有开创性意义。该数据集通过捕捉不同角色的丰富表情变化，为基于扩散变换器的多角色动画生成提供了关键训练数据。研究人员可以借助该数据集训练模型学习不同角色间的表情关联性，实现更自然的多角色协同动画效果。

衍生相关工作

基于该数据集衍生的FantasyPortrait框架已成为多角色动画生成的新基准。相关研究如Wan2.1视频生成模型、PD-FGC面部动画控制技术等都在此基础上进行了扩展。这些工作共同推动了表情条件扩散模型的发展，为构建更复杂的多角色交互系统奠定了基础。

数据集最近研究