LLM-Generated Dataset for Speech-Driven 3D Facial Animation Models with Text-Controlled Expressivity

github2025-09-12 更新2025-10-02 收录

下载链接：

https://github.com/AI-Unicamp/LLM-Generated-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用大型语言模型（LLMs）生成具有文本控制表现力的合成面部动画数据，用于训练语音驱动的3D面部动画模型。它结合了多源情感数据集（GoEmotions、Tweet Intensity、ISEAR），通过Llama 3.3 70B生成面部描述，并基于CLIP进行文本和面部混合形状的多模态对齐，包括基于FACS的动作单元映射。数据集包含处理后的情感数据、生成的合成数据以及原始情感数据。

This dataset employs Large Language Models (LLMs) to generate text-controllable expressive synthetic facial animation data for training speech-driven 3D facial animation models. It integrates multi-source emotional datasets including GoEmotions, Tweet Intensity, and ISEAR, generates facial descriptions via Llama 3.3 70B, and conducts multimodal alignment between text and facial blend shapes based on CLIP, which covers FACS-based Action Unit mapping. The dataset comprises processed emotional data, generated synthetic facial animation data, and raw emotional data.

创建时间：

2025-09-10

原始信息汇总

LLM-Generated Dataset for Speech-Driven 3D Facial Animation Models with Text-Controlled Expressivity

项目概述

本项目专注于创建高质量的合成数据集，用于训练语音驱动的3D面部动画模型。方法结合了多源情感数据集和LLM生成的面部描述。

数据集结构

输入数据集（raw_data/）

GoEmotions：包含58k条带有情感标签的Reddit评论
Tweet Intensity：包含情感强度推文（愤怒、恐惧、喜悦、悲伤）
ISEAR：国际情绪前因与反应调查

生成数据集（gen_data/）

最终合成数据集：包含文本、情感、描述和混合形状
LLM输出：Llama 3.3 70B生成的情感描述和动作单元

数据处理流程

数据集生成

从原始数据源生成情感数据集： bash cd scripts/dataset_generation/ python gen_dataframe_goemo.py python gen_dataframe_tweet.py python gen_dataframe_isear.py python gen_dataframe_final.py

LLM增强

使用Llama 3.3生成面部描述： bash python gen_dataset_llama33_4bit.py

模型架构

CLIP模块核心组件

BlendshapeEncoder：将51D混合形状向量编码到潜在空间
TextProjector：将CLIP文本嵌入投影到共享潜在空间
BlendshapeDecoder：从潜在表示重建混合形状
ClipEncoderModule：用于文本编码的冻结CLIP模型

技术特点

基于FACS（面部动作编码系统）的动作单元映射
文本与面部混合形状的多模态对齐
CLIP基础的多模态训练框架

训练配置

批量大小：256
学习率：1e-5
训练周期：100

评估方法

生成t-SNE可视化： bash cd scripts/evaluation/ python tsne_plot.py

引用信息

引用格式待定（TBD）

联系方式

GitHub Issues
邮箱：p243236@dac.unicamp.br
机构：AIMS-Unicamp

搜集汇总

数据集介绍

构建方式

在语音驱动三维面部动画研究领域，该数据集通过融合多源情感数据与大型语言模型技术构建而成。原始数据整合了GoEmotions的社交媒体情感标注、Tweet Intensity的情感强度分析以及ISEAR国际情感调查三大语料库，随后采用Llama 3.3 70B模型生成与语音内容匹配的面部动作描述，最终通过CLIP多模态对齐机制将文本描述映射至51维面部混合形状参数，形成语音-文本-面部动作的三元关联数据。

特点

本数据集的核心价值在于实现了文本可控的表情生成能力。其独特之处在于将离散情感标签扩展为连续的面部动作单元序列，每个数据样本均包含语音文本、情感强度值、LLM生成的面部描述以及符合FACS系统的动作单元编码。这种结构化设计使数据集既能支持端到端的动画生成，又能实现细粒度的表情强度调控，为可控性面部动画研究提供了多维度的实验基础。

使用方法

研究者可通过分阶段流程使用该数据集：首先运行数据集生成脚本整合原始情感语料，接着调用LLM增强模块生成面部动作描述，然后利用CLIP对齐模块训练文本-混合形状映射模型。训练完成后，用户只需输入任意文本及情感控制参数，即可通过预训练模型生成对应的三维面部动画序列。评估模块还提供t-SNE可视化工具，便于分析潜在空间的表情分布特性。

背景与挑战

背景概述

在数字人与虚拟现实技术蓬勃发展的背景下，2024年由AIMS-Unicamp研究团队构建的LLM生成数据集，致力于解决语音驱动三维面部动画中表情控制的瓶颈问题。该数据集创新性地融合多源情感语料与大型语言模型生成技术，通过CLIP多模态对齐机制将文本描述映射至面部动作编码系统，显著提升了虚拟角色表情的自然度与可控性。其突破性在于构建了首个支持文本控制表现力的面部动画数据集，为人机交互与数字娱乐领域提供了关键数据支撑。

当前挑战

该数据集需攻克语音驱动面部动画中情感粒度与动作单元映射的精确性难题，具体体现为文本描述与51维混合形状参数的语义对齐挑战。在构建过程中，面临多源情感数据标准化处理的复杂性，包括GoEmotions与ISEAR数据集间的标注差异整合；同时需解决Llama 3.3模型生成描述与FACS系统动作单元的映射一致性，以及CLIP跨模态表征学习中高维数据收敛稳定性等技术瓶颈。

常用场景

经典使用场景

在语音驱动的三维面部动画领域，该数据集通过整合多源情感数据与大型语言模型生成的面部描述，为训练高表现力的动画模型提供了关键支持。其经典应用体现在利用文本控制的表情参数生成逼真的面部动作单元，显著提升了动画与语音情感的同步性，为虚拟角色赋予更自然的情感表达能力。

衍生相关工作

基于该数据集衍生的经典研究包括结合CLIP模型的多模态对齐框架，实现了文本描述与面部混合形状的语义级映射。后续工作进一步拓展了动态表情生成网络，开发出基于概率建模的表情强度控制系统，为自适应情感动画生成奠定了理论基础。

数据集最近研究