TDMM-LM Dataset

github2026-04-28 更新2026-04-30 收录

下载链接：

https://github.com/Songluchuan/TDMM-LM_data

下载链接

链接失效反馈

官方服务：

资源简介：

TDMM-LM数据集是一个通过基础生成模型合成的大规模面部动画数据集，包含大约80小时的面部中心视频，涵盖了广泛的情感、表情和头部动作，每个视频片段都配有文本提示和3D面部参数，用于训练文本驱动的面部动画/理解模型。

The TDMM-LM dataset is a large-scale facial animation dataset synthesized via basic generative models. It contains approximately 80 hours of face-centric videos covering a wide range of emotions, facial expressions and head movements. Each video clip is paired with text prompts and 3D facial parameters, and is intended for training text-driven facial animation and understanding models.

创建时间：

2026-04-27

原始信息汇总

TDMM-LM 数据集概述

数据集简介

TDMM-LM 是一个大规模面部动画数据集，由基础生成模型合成。数据集包含约 80 小时以面部为中心的视频，涵盖广泛的情感、表情和头部运动，每个视频片段配有文本提示和 3D 面部参数，用于训练文本驱动的面部动画/理解模型。

数据集结构

Part-1（约 70 小时）

视频下载：可通过 Google Drive 获取
语言标注：以 JSON 文件形式提供

Part-2（约 10 小时）

状态：即将发布

音频数据

状态：即将发布（与 Part-1 视频同步）

工具支持

推荐使用 smirk 或其他面部追踪方法提取面部参数
提供基于 smirk 的批处理脚本作为参考
提供基于 spectre 的批处理脚本作为参考

引用信息

该数据集对应的论文为《TDMM-LM: Bridging Facial Understanding and Animation via Language Models》，发表于 arXiv（arXiv:2603.16936）。

搜集汇总

数据集介绍

构建方式

TDMM-LM Dataset是一个利用基础生成模型合成的大规模面部动画数据集，总时长约80小时。数据集的构建过程依托于前沿的生成式人工智能技术，通过文本提示驱动模型生成涵盖广泛情感、表情和头部运动的面部中心视频。每个视频片段均配有对应的文本描述和3D面部参数，从而为文本驱动的面部动画与理解模型提供训练素材。数据集分为两部分：第一部分约70小时，第二部分约10小时，其中第二部分及音频数据尚待发布。

特点

该数据集的核心特点在于其规模宏大且内容丰富，包含约80小时的视频素材，覆盖了多样化的情感状态、丰富的面部表情和自然的头部运动。每一段视频均与精确的文本提示及3D面部参数配对，使得数据集不仅适用于训练，还便于研究者评估模型在生成富有表现力和情感忠诚度的面部行为方面的能力。此外，数据集还提供了配套的语言标注JSON文件，方便用户进行多模态分析。

使用方法

用户可通过Google Drive链接下载视频数据，并利用提供的JSON文件获取对应的语言标注。为了从视频中提取3D面部参数，推荐使用smirk或spectre等面部追踪方法，数据集仓库中提供了基于这两种方法的批量处理脚本作为参考。这些工具和脚本能够帮助用户高效地进行参数提取，从而将数据集应用于文本驱动的面部动画与理解模型的训练、验证及性能评估中。

背景与挑战

背景概述

TDMM-LM数据集由Song Luchuan等研究人员于2026年创建，发表于arXiv预印本，旨在弥合人脸理解与动画生成之间的鸿沟。该数据集利用大规模生成式基础模型合成，包含约80小时以人脸为中心的视频素材，覆盖丰富的情感、表情和头部运动，每段视频配有文本提示与3D面部参数。其核心研究问题在于探索文本驱动的人脸动画/理解模型的能力边界，为相关领域提供标准化训练与评估资源。该数据集的发布为计算机视觉与自然语言处理的交叉研究开辟了新路径，显著推动了对生成富有表现力和情感忠实度的人脸行为这一挑战的系统性探究。

当前挑战

该数据集面临的挑战涵盖领域问题与构建过程两大层面。在领域问题方面，文本驱动人脸动画需解决从抽象语言描述到精细面部动态映射的歧义性难题，尤其需确保生成的表情与情感在时间序列上的自然连贯性，同时避免表情同质化或过渡生硬。在构建过程中，合成视频需克服真实性与多样性之间的平衡困境——既要通过基础模型生成高度逼真的面部细节，又要保证跨情绪、跨运动模式的广泛覆盖，避免数据偏差。此外，文本标注需精确匹配动态行为，这对语义解析和参数化表征的协同提出了严格标准，而多阶段数据分发的版本管理也增加了组织复杂性。

常用场景

经典使用场景

TDMM-LM数据集的核心应用场景在于训练和评估文本驱动的人脸动画生成与理解模型。该数据集包含约80小时以人脸为中心的高质量视频，覆盖丰富的情感、表情和头部运动谱系，每个视频片段均配有对应的文本提示和3D面部参数。研究者可基于此数据集，利用语言模型作为桥梁，探索从自然语言描述到逼真面部动画的映射机制，实现情感忠实且表达细腻的虚拟角色动画生成。这一场景在数字人构建、虚拟现实交互以及智能对话系统中具有不可替代的基础支撑作用。

解决学术问题

该数据集有效解决了当前学术研究中文本驱动面部动画领域标注数据稀缺、情感与表情多样性不足的痛点。传统数据集往往局限于有限的表情类别或单一的头部运动模式，难以支撑模型在真实复杂场景下的泛化能力。TDMM-LM通过基础生成模型合成大规模、高多样性的面部视频，为研究表情与文本语义之间的细粒度对齐提供了坚实的数据基础。其意义在于推动面部动画生成从简单模仿走向语义驱动的创作，为情感计算与人机交互研究开辟了新的数据驱动范式。

衍生相关工作

基于TDMM-LM数据集，衍生了一系列引人瞩目的经典研究工作。其中，利用该数据集训练的文本到面部动画生成模型，在情感表达准确性和动作自然度上取得了突破性进展，成为后续研究的基准方法。此外，部分工作专注于探索语言模型如何理解面部语义信息，从而实现了从文本到3D面部参数的端到端预测。同时，该数据集还被用于评估不同面部跟踪方法的有效性，推动了如smirk和spectre等工具在逆渲染任务中的优化与标准化，促进了整个领域的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集