UniLSTalkDataset
收藏Hugging Face2026-03-12 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/xg-chu/UniLSTalkDataset
下载链接
链接失效反馈官方服务:
资源简介:
UniLS-Talk 数据集是一个大规模高质量3D面部运动数据集合,旨在支持统一说话与倾听虚拟人生成的研究。数据集通过精心设计的跟踪流程提取每帧的FLAME参数,包括表情系数、眼球注视、下颌姿态和头部姿态注释。数据集包含两部分互补内容:1) 来自Seamless Interaction数据集的配对对话数据,提供具有自然轮流动态的双说话者同步视频;2) 从CelebV、TalkingHead-1KH、TEDTalk、VFHQ等野外视频中聚合的非配对多场景数据,涵盖不同身份和环境下的多样化面部行为(新闻广播、访谈、随意交谈等)。数据集总计1,204小时,其中配对对话数据657.5小时(含音频和运动数据),非配对多场景数据546.5小时(仅含运动数据)。配对对话数据被划分为622.5小时训练集、4.8小时验证集和30.2小时测试集。所有数据均包含25fps的FLAME表情参数、下颌和头部姿态以及眼球注视注释。
创建时间:
2026-02-28
原始信息汇总
UniLS-Talk 数据集概述
数据集简介
UniLS-Talk 数据集是一个用于统一说话与倾听虚拟人生成研究的大规模高质量3D面部运动数据集合。该数据集通过精心设计的追踪流程,提取了每帧的FLAME参数,包括表情系数、眼球注视、下颌姿态和头部姿态标注。
数据集构成
数据集由两个互补的部分组成:
1. 配对对话数据
- 来源:Seamless Interaction 数据集。
- 内容:提供同步的双说话者视频,包含说话与倾听之间自然的轮流动态。
- 时长:657.5小时。
- 数据模态:包含音频和运动数据。
2. 非配对多场景数据
- 来源:从CelebV、TalkingHead-1KH、TEDTalk、VFHQ以及其他野外视频中聚合。
- 内容:涵盖不同身份和环境(如新闻广播、访谈、随意交谈等)中的多样化面部行为。
- 时长:546.5小时。
- 数据模态:仅包含运动数据,不包含音频。
数据统计
| 类别 | 来源 | 时长 | 音频 | 运动 |
|---|---|---|---|---|
| 配对对话 | Seamless Interaction 数据集 | 657.5 h | ✅ | ✅ |
| 非配对多场景 | 来自野外视频的不同身份和环境 | 546.5 h | ❌ | ✅ |
| 总计 | 1,204 h |
数据划分与标注
- 配对对话数据划分:
- 训练集:622.5小时。
- 验证集:4.8小时。
- 测试集:30.2小时。
- 标注信息:所有数据均包含FLAME表情参数、下颌与头部姿态以及眼球注视标注,帧率为25 fps。
相关链接
- FLAME模型:https://flame.is.tue.mpg.de/
- Seamless Interaction数据集:https://ai.meta.com/research/seamless-interaction/
搜集汇总
数据集介绍

构建方式
在三维人脸动画与视听交互研究领域,高质量数据集的构建对于推动统一说话与倾听虚拟人生成技术的发展至关重要。UniLS-Talk数据集的构建采用了双轨并行的策略,一方面从Seamless Interaction数据集中提取了配对对话视频,这些视频捕捉了真实人际交流中的自然轮换动态,确保了说话与倾听状态间的时序同步性;另一方面,通过整合CelebV、TalkingHead-1KH等多源野外视频,汇集了涵盖新闻播报、访谈等多种场景的未配对数据,从而在身份与环境多样性上实现了广泛覆盖。整个数据集经过精心设计的追踪流程处理,以每秒25帧的速率提取了包括FLAME表情系数、眼球注视、下颌姿态及头部姿态在内的精细化运动参数。
特点
UniLS-Talk数据集的核心特征体现在其规模与结构的双重优势上。该数据集总时长超过1200小时,其中配对对话部分约占657.5小时,未配对多场景部分则贡献了546.5小时,形成了大规模且均衡的数据储备。在内容构成上,数据集不仅提供了同步的音频与运动数据,以支持视听联合建模,还专门包含了仅含运动数据的部分,为纯视觉生成任务提供了丰富资源。所有数据均标注了统一的FLAME参数体系,确保了跨样本的兼容性与可比性。此外,数据集已按研究惯例划分为训练、验证与测试子集,其中训练集占据主导,验证与测试集则保留了足够体量以供可靠评估。
使用方法
针对统一说话与倾听虚拟人生成这一前沿课题,UniLS-Talk数据集为模型训练与评估提供了结构化支持。研究者可利用其配对对话部分,开发能够自然切换说话与倾听状态的端到端生成模型,通过输入音频驱动输出相应的面部运动序列,并利用验证集进行超参数调优。对于多场景未配对数据,则可应用于数据增强、域适应研究或专门针对倾听状态的静态姿态建模。在评估阶段,测试集提供了标准化的基准,可用于定量比较不同方法在唇部同步、表情自然度等方面的性能。数据集统一的FLAME参数格式也便于与现有三维人脸分析工具链集成,加速实验迭代与结果可视化。
背景与挑战
背景概述
在数字人技术蓬勃发展的背景下,生成兼具自然说话与聆听行为的统一化虚拟化身成为研究前沿。为应对这一需求,UniLS-Talk数据集应运而生,由相关研究团队于近年构建。该数据集旨在为统一听说头像生成研究提供大规模、高质量的三维面部运动数据支撑,其核心研究问题聚焦于如何从多模态视频数据中精准提取并建模人类在对话互动中的复杂面部动态,包括表情、视线、下颌与头部姿态的协同变化。通过整合成对对话数据与无配对多场景数据,该数据集显著推动了视听生成、人机交互及社交计算等领域的发展,为构建更具表现力与交互性的数字智能体奠定了关键数据基础。
当前挑战
该数据集致力于解决统一听说头像生成这一复杂领域问题,其核心挑战在于如何精确建模人类在自然对话中说话与聆听状态间快速、细微且连贯的面部动态转换,尤其是捕捉非言语的社交线索如眼神交流与点头回应。在构建过程中,研究者面临多重技术挑战:从海量、异构的野外视频中(如新闻播报、访谈)稳定提取高保真度的三维FLAME参数;确保成对对话数据中双说话者视频的严格时间同步与自然轮流动态;以及处理不同身份、光照与环境带来的数据噪声与多样性,以实现模型在广泛场景下的鲁棒泛化能力。
常用场景
经典使用场景
在视听多模态人工智能领域,UniLS-Talk数据集为统一说话与倾听虚拟人生成研究提供了关键支撑。该数据集通过整合配对对话数据与未配对多场景数据,构建了大规模高质量的三维面部运动序列,涵盖自然对话中的表情、视线、头部姿态等多维度动态特征。研究者可基于此数据集训练端到端的视听生成模型,模拟人类在交互过程中的说话与倾听行为,推动虚拟人从单向表达向双向互动演进。
实际应用
在实际应用层面,UniLS-Talk数据集可广泛应用于虚拟助手、数字人直播、远程会议增强现实等场景。基于该数据集训练的模型能够生成具有自然倾听反馈的虚拟形象,提升人机交互的沉浸感与亲和力。例如,在在线教育或客服系统中,虚拟教师或助手可通过实时生成的面部运动与视线接触,模拟人类倾听时的专注与回应,从而改善用户体验与沟通效率。
衍生相关工作
围绕UniLS-Talk数据集,已衍生出多项关于统一视听生成的前沿研究。例如,基于FLAME参数的面部运动合成工作利用该数据集的高精度标注,实现了对表情、凝视与头部运动的协同控制;同时,结合对话动态建模的生成方法进一步探索了说话与倾听状态的平滑过渡。这些工作推动了多模态生成模型从独立模态建模向交互式统一生成的范式转变。
以上内容由遇见数据集搜集并总结生成



