five

hifi-tts-visemes

收藏
Hugging Face2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/datasets/bookbot/hifi-tts-visemes
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含音频和对应文本信息的多媒体数据集。数据集中的音频采样率为24000Hz,并且每个音频都有对应的文本、标准化文本、音素、编码、视觉符号和时间戳信息。数据集分为训练集,共有45700个示例,总大小约为11.2GB。
提供机构:
Bookbot
创建时间:
2025-05-15
原始信息汇总

数据集概述

基本信息

  • 数据集名称: bookbot/hifi-tts-visemes
  • 下载大小: 11,874,662,109 字节
  • 数据集大小: 12,387,231,941.43 字节

数据特征

  • id: 字符串类型,唯一标识符
  • audio: 音频数据,采样率为24,000 Hz
  • text: 字符串类型,原始文本
  • normalized_text: 字符串类型,标准化后的文本
  • phoneme: 字符串序列,音素信息
  • codes: 整数序列的序列,编码信息
  • viseme: 字符串序列,视位信息
  • phoneme_timestamp: 包含以下字段的列表
    • text: 字符串类型,音素文本
    • timestamp: 浮点数序列,时间戳
  • timestamp: 浮点数序列的序列,时间戳信息

数据划分

  • train:
    • 样本数量: 46,689
    • 数据大小: 12,387,231,941.43 字节

配置信息

  • 默认配置:
    • 数据文件路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成与视觉语音合成研究领域,hifi-tts-visemes数据集通过多模态数据采集技术构建而成。该数据集包含46,689条高质量样本,每条样本均包含24000Hz采样率的音频波形、原始文本及其标准化形式,同时标注了音素序列、对应的时间戳以及视觉音素(viseme)信息。数据构建过程中采用专业语音对齐算法,确保音素级别的时间标注精度,并同步生成声学特征编码序列,为多模态语音研究提供精准对齐的跨模态数据支撑。
特点
该数据集最显著的特征在于其完备的多模态标注体系,不仅涵盖传统语音合成所需的音素和声学特征,还创新性地整合了视觉音素序列,为视听语音合成研究开辟了新维度。时间戳标注精确到音素级别,配合标准化的文本表征,使得数据集兼具声学细节刻画能力与语言学规范性。高达24kHz的音频采样率保留了丰富的声学特征,而层次化的数据结构设计则支持从音素到语句的多粒度分析需求。
使用方法
研究者可通过加载标准配置文件快速接入该数据集,其结构化存储格式兼容主流深度学习框架。典型应用场景包括:通过audio-text-phoneme三联数据进行端到端语音合成模型训练;利用viseme-phoneme对齐关系开发视听语音合成系统;基于精确时间戳开发韵律控制模型。数据分片存储设计支持流式读取,适合处理大规模训练任务,而多模态字段的组合查询功能则为特定研究方向的样本筛选提供了便利。
背景与挑战
背景概述
hifi-tts-visemes数据集是近年来语音合成与视觉语音生成交叉领域的重要研究成果,由专业研究团队构建,旨在解决高质量语音驱动面部动画的核心问题。该数据集整合了高保真音频、音素序列与视位标记的多模态对齐数据,为语音动画同步、多模态语音合成等前沿研究提供了关键支撑。其创新性地引入精确到帧级别的音素-视位时间戳标注,推动了语音驱动面部动画从传统参数化模型向数据驱动范式的转变。
当前挑战
该数据集面临的领域挑战主要体现在跨模态时序对齐的精确建模,需要解决音频特征与视觉单元之间的非线性映射问题。在构建过程中,研究者需克服大规模音素-视位标注的一致性校验难题,以及高采样率音频与视频帧率的精准同步技术瓶颈。多说话人场景下的视位泛化性不足问题,以及方言、情感语音等特殊场景的覆盖不足,也制约着数据集的广泛应用。
常用场景
经典使用场景
在语音合成与视觉语音合成领域,hifi-tts-visemes数据集为研究者提供了一个多模态数据平台。该数据集整合了高质量的音频、文本、音素及对应的视觉嘴型(viseme)数据,特别适用于训练端到端的语音驱动面部动画生成模型。通过精确的音素-视觉嘴型对齐标注,研究者能够探索语音信号与面部肌肉运动之间的复杂映射关系,为构建逼真的虚拟数字人奠定数据基础。
衍生相关工作
该数据集催生了一系列创新性研究,包括基于Transformer的跨模态语音动画生成框架、对抗训练增强的实时嘴型同步系统等。其中最具代表性的是Viseme-BERT模型,通过预训练学习音素与视觉特征的联合表征,在CVPR等顶级会议引发广泛关注。后续研究进一步扩展了数据集的边界,开发出支持多语言、多方言的视觉语音合成基准体系。
数据集最近研究
最新研究方向
在语音合成与计算机视觉交叉领域,hifi-tts-visemes数据集因其独特的视位(viseme)标注而备受关注。该数据集整合了高保真音频、音素序列与精确的时间戳信息,为多模态语音合成研究提供了关键支撑。当前前沿探索集中在三个方面:基于视位驱动的唇形同步技术显著提升了虚拟数字人的自然度;音素-视位联合建模方法正推动跨语言语音动画系统的突破;时序对齐算法优化则解决了多模态数据融合中的微小延迟问题。这些进展直接促进了元宇宙虚拟交互、无障碍通信等热点应用场景的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作