Express4D

Name: Express4D
Creator: 特拉维夫大学
Published: 2025-08-18 01:10:13
License: 暂无描述

arXiv2025-08-18 更新2025-08-22 收录

下载链接：

https://jaron1990.github.io/Express4D/

下载链接

链接失效反馈

官方服务：

资源简介：

Express4D数据集是动态面部表情生成的关键数据集，包含丰富的面部运动序列和语义标注。数据集由18名参与者表演，涵盖了1205个多样化的序列。数据集利用LLM生成的自然语言指令，并以流行的ARKit blendshape格式进行采集，易于使用普通设备收集，并与行业标准动画流程兼容。该数据集旨在解决现有面部运动数据集缺乏细粒度控制和复杂表情表达的局限性，通过自然语言驱动的动态面部表情生成，为动画、虚拟角色和人类计算机交互等领域提供丰富的资源。

The Express4D dataset is a pivotal resource for dynamic facial expression generation, boasting abundant facial motion sequences and semantic annotations. Collected from performances by 18 participants, it encompasses 1205 diverse sequences. The dataset utilizes LLM-generated natural language instructions and is captured in the widely adopted ARKit blendshape format. It facilitates collection with consumer-grade devices and is compatible with industry-standard animation workflows. This dataset aims to address the limitations of existing facial motion datasets, namely the lack of fine-grained control and support for complex facial expression rendering, and provides abundant resources for domains including animation, virtual characters, and human-computer interaction through natural language-driven dynamic facial expression generation.

提供机构：

特拉维夫大学

创建时间：

2025-08-18

搜集汇总

数据集介绍

构建方式

在动态面部表情生成领域，Express4D数据集的构建采用了创新且高效的方法。通过大型语言模型生成多样化的自然语言指令，涵盖广泛的情感与行为范围，确保提示的丰富性与多样性。随后，18名参与者在一致光照条件下使用配备TrueDepth摄像头的iPhone设备，通过Live Link Face应用实时录制面部动作。数据以ARKit混合形状系数形式捕获，包括52个面部表情系数及头部与眼部旋转参数，采样率为60Hz，最终形成1205个高质量序列。

特点

Express4D数据集的核心特点在于其细粒度的自然语言标注与高度可移植的动画兼容性。每个序列均配有详细的文本描述，突破传统离散情感标签的局限，能够捕捉微妙的表情差异与复合情感表达。数据以ARKit标准混合形状格式存储，包含61维向量表示，支持无缝适配不同虚拟角色与行业标准动画流程。其时间分辨率达60FPS，时长1.75至10秒，兼具动态连贯性与计算轻量化优势，为文本驱动面部运动研究提供前所未有的语义丰富性与技术灵活性。

使用方法

该数据集适用于训练与评估文本到面部运动的生成模型，支持基于扩散变换器与VQ-VAE等主流架构的基准实验。研究人员可加载CSV格式的混合形状系数序列，结合对应文本提示进行跨模态对齐训练。评估时可采用Fr ́echet Inception Distance、R-precision等指标量化生成动作的真实性与文本一致性。通过配套的WebUI界面，用户可进一步扩展数据集，利用个人设备录制新序列并提交审核，推动社区协同共建与模型迭代优化。

背景与挑战

背景概述

计算机图形学领域长期致力于动态面部表情生成技术的研究，该技术对动画制作、虚拟化身和人机交互具有重要应用价值。Express4D数据集由特拉维夫大学和莱赫曼大学的研究团队于2025年创建，旨在解决现有数据集受限于语音驱动或粗粒度情感标签的问题。该数据集通过消费级设备采集，采用ARKit混合形状格式，包含1205个由18名参与者表演的精细面部运动序列，每个序列均配有基于大语言模型生成的自然语言描述。这一创新为细粒度文本驱动面部动画生成提供了高质量资源，推动了该领域向更自然、更具表现力的方向发展。

当前挑战

该数据集主要解决文本到动态面部表情生成中的细粒度控制挑战，传统方法无法捕捉微妙的表情变化和复合情感表达。构建过程中面临双重挑战：一是需要设计能够涵盖丰富表情语义的文本指令生成流程，通过大语言模型迭代优化提示词以确保多样性；二是采用移动设备进行标准化数据采集时，需解决非专业表演者的表情自然性、设备校准一致性以及跨会话光照条件稳定性的技术难题，同时保持与行业标准动画管线的兼容性。

常用场景

经典使用场景

在计算机图形学与人机交互领域，Express4D数据集为文本驱动的动态面部表情生成提供了标准化基准。其经典使用场景包括训练生成模型从自然语言描述中合成细腻的面部动作序列，如“人物微微倾斜头部后轻柔微笑”或“惊讶时突然睁大双眼”，这些场景充分体现了数据集在捕捉细微表情变化方面的优势。

衍生相关工作

基于Express4D衍生的经典工作包括适配人体运动生成架构（如MDM扩散模型和T2M-GPT）的面部动作生成基线模型，以及基于HumanML3D评估框架的自动面部动作特征提取器。这些工作为后续研究提供了可复现的基准，并促进了文本-表情生成任务的标准化评估体系发展。

数据集最近研究