mouth-viseme

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/FosterRae/mouth-viseme

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，适用于机器人技术领域。数据集包含195个episodes，63521帧，1707个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为50fps。数据集的结构包括观察状态（37个浮点型特征，涉及多个关节的位置、速度和变化）、嘴部图像（3通道，224x224像素）、动作（9个关节的浮点型数据）以及多个索引（如时间戳、帧索引、episode索引等）。数据以parquet格式存储，视频以mp4格式存储。数据集采用Apache-2.0许可证。

创建时间：

2026-03-07

搜集汇总

数据集介绍

构建方式

在机器人学与计算机视觉交叉领域，mouth-viseme数据集依托LeRobot框架构建而成，其设计旨在捕捉与模拟口部视觉单元的动态变化。该数据集通过系统化的数据采集流程，记录了671个独立片段，涵盖超过22万帧的高频时序数据，采样率为每秒50帧。数据以分块存储的Parquet格式组织，每块包含1000帧，确保了高效的数据访问与管理。观测状态特征包含37维浮点向量，细致刻画了颚部与多个唇部关节的位置、速度及其变化量，同时辅以口部区域的RGB图像序列，共同构成了多模态的机器人动作学习基础。

特点

mouth-viseme数据集呈现出鲜明的多模态与高时序分辨率特性。其观测状态不仅涵盖九大关节的实时位置与速度，还引入了前一时刻状态及增量信息，形成连续动态的精细描述。口部图像以224x224像素的三通道格式呈现，为视觉感知任务提供了直观的输入。数据集整体规模适中，包含2207项任务划分，所有数据均归入训练分割，适用于端到端的模仿学习或强化学习范式。数据与视频文件分别存储，在保持结构清晰的同时，兼顾了存储效率与读取便捷性。

使用方法

该数据集适用于机器人动作生成、口型同步及视觉-运动映射等研究方向。使用者可通过LeRobot库或兼容的机器学习框架加载Parquet数据文件，依据特征字典提取观测状态、图像及动作标签。每帧数据均附带时间戳、帧索引与任务标识，便于时序建模与任务关联分析。研究人员可基于关节动作序列与对应视觉观测，训练模型以生成自然的口部运动轨迹，或探索从视觉输入到关节控制的反向映射。数据集的标准化格式确保了与主流机器人学习工具链的无缝集成。

背景与挑战

背景概述

在机器人学与计算机视觉交叉领域，口部视觉语音（viseme）的精确建模对于实现自然的人机交互至关重要。mouth-viseme数据集由HuggingFace社区的LeRobot项目创建，旨在为口部动作的生成与控制提供高质量的多模态数据。该数据集收录了超过22万帧图像与对应的机器人关节状态数据，聚焦于口部九个关键关节的运动轨迹与视觉外观的同步记录。其核心研究问题在于探索如何从视觉观测中推断或生成精确的口部运动指令，进而推动具身智能体在语音驱动动画或辅助沟通等场景中的应用。尽管具体创建时间与主要研究人员信息尚未公开，但依托Apache 2.0开源协议与LeRobot框架，该数据集为机器人模仿学习与视觉运动映射研究提供了宝贵的资源。

当前挑战

mouth-viseme数据集致力于解决口部视觉语音生成这一复杂领域问题，其核心挑战在于如何实现高保真度的口部运动与视觉外观的跨模态对齐。具体而言，数据集中包含的关节状态（如Jaw、BL、BR等）需与同步采集的口部图像在时空上精确匹配，任何细微的偏差都可能导致生成动作的不自然。在构建过程中，挑战主要体现在多传感器数据的同步采集与标定，尤其是在高速（50 fps）录制下确保关节编码器数据与图像帧之间的毫秒级同步。此外，口部区域图像在复杂光照、遮挡及个体解剖差异下的鲁棒性标注，以及大规模多模态数据（总计约300MB）的高效存储与检索，均为数据集构建带来了显著的技术难题。

常用场景

经典使用场景

在机器人学与计算机视觉交叉领域，mouth-viseme数据集为口型同步与面部动画生成提供了关键数据支撑。该数据集通过记录机器人执行口部动作时的关节状态与视觉图像，构建了从机械控制到视觉表现的映射关系。研究人员利用其丰富的时序帧数据，训练模型学习口部关节运动与对应视觉形态之间的复杂关联，进而实现精准的口型驱动与动画合成。

解决学术问题

该数据集有效解决了机器人仿生控制中口部动作生成与视觉一致性匹配的学术难题。通过提供高帧率的口部关节运动轨迹与同步图像数据，它支持研究者探索从低维控制信号到高维视觉输出的生成机制。这有助于突破传统动画制作中依赖手工调参的局限，推动基于数据驱动的自动口型生成方法发展，并为跨模态学习、强化学习在机器人控制中的应用提供实证基础。

衍生相关工作

围绕mouth-viseme数据集，已衍生出一系列专注于口型同步与面部动画生成的经典研究工作。这些工作通常结合深度强化学习或生成对抗网络，利用数据集中的状态-动作-图像三元组，训练端到端的口型驱动模型。部分研究进一步探索了跨语言口型适配、低数据量下的泛化性能提升等方向，推动了该领域从基础控制到高保真视觉合成的技术演进，并为开源机器人平台LeRobot的生态发展贡献了重要范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集