hifi-tts-visemes

Name: hifi-tts-visemes
Creator: Bookbot
Published: 2025-05-15 23:42:11
License: 暂无描述

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/bookbot/hifi-tts-visemes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含音频和对应文本信息的多媒体数据集。数据集中的音频采样率为24000Hz，并且每个音频都有对应的文本、标准化文本、音素、编码、视觉符号和时间戳信息。数据集分为训练集，共有45700个示例，总大小约为11.2GB。

提供机构：

Bookbot

创建时间：

2025-05-15

原始信息汇总

数据集概述

基本信息

数据集名称: bookbot/hifi-tts-visemes
下载大小: 11,874,662,109 字节
数据集大小: 12,387,231,941.43 字节

数据特征

id: 字符串类型，唯一标识符
audio: 音频数据，采样率为24,000 Hz
text: 字符串类型，原始文本
normalized_text: 字符串类型，标准化后的文本
phoneme: 字符串序列，音素信息
codes: 整数序列的序列，编码信息
viseme: 字符串序列，视位信息
phoneme_timestamp: 包含以下字段的列表
- text: 字符串类型，音素文本
- timestamp: 浮点数序列，时间戳
timestamp: 浮点数序列的序列，时间戳信息

数据划分

train:
- 样本数量: 46,689
- 数据大小: 12,387,231,941.43 字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在语音合成与视觉语音合成研究领域，hifi-tts-visemes数据集通过多模态数据采集技术构建而成。该数据集包含46,689条高质量样本，每条样本均包含24000Hz采样率的音频波形、原始文本及其标准化形式，同时标注了音素序列、对应的时间戳以及视觉音素(viseme)信息。数据构建过程中采用专业语音对齐算法，确保音素级别的时间标注精度，并同步生成声学特征编码序列，为多模态语音研究提供精准对齐的跨模态数据支撑。

特点

该数据集最显著的特征在于其完备的多模态标注体系，不仅涵盖传统语音合成所需的音素和声学特征，还创新性地整合了视觉音素序列，为视听语音合成研究开辟了新维度。时间戳标注精确到音素级别，配合标准化的文本表征，使得数据集兼具声学细节刻画能力与语言学规范性。高达24kHz的音频采样率保留了丰富的声学特征，而层次化的数据结构设计则支持从音素到语句的多粒度分析需求。

使用方法

研究者可通过加载标准配置文件快速接入该数据集，其结构化存储格式兼容主流深度学习框架。典型应用场景包括：通过audio-text-phoneme三联数据进行端到端语音合成模型训练；利用viseme-phoneme对齐关系开发视听语音合成系统；基于精确时间戳开发韵律控制模型。数据分片存储设计支持流式读取，适合处理大规模训练任务，而多模态字段的组合查询功能则为特定研究方向的样本筛选提供了便利。

背景与挑战

背景概述

hifi-tts-visemes数据集是近年来语音合成与视觉语音生成交叉领域的重要研究成果，由专业研究团队构建，旨在解决高质量语音驱动面部动画的核心问题。该数据集整合了高保真音频、音素序列与视位标记的多模态对齐数据，为语音动画同步、多模态语音合成等前沿研究提供了关键支撑。其创新性地引入精确到帧级别的音素-视位时间戳标注，推动了语音驱动面部动画从传统参数化模型向数据驱动范式的转变。

当前挑战

该数据集面临的领域挑战主要体现在跨模态时序对齐的精确建模，需要解决音频特征与视觉单元之间的非线性映射问题。在构建过程中，研究者需克服大规模音素-视位标注的一致性校验难题，以及高采样率音频与视频帧率的精准同步技术瓶颈。多说话人场景下的视位泛化性不足问题，以及方言、情感语音等特殊场景的覆盖不足，也制约着数据集的广泛应用。

常用场景

经典使用场景

在语音合成与视觉语音合成领域，hifi-tts-visemes数据集为研究者提供了一个多模态数据平台。该数据集整合了高质量的音频、文本、音素及对应的视觉嘴型（viseme）数据，特别适用于训练端到端的语音驱动面部动画生成模型。通过精确的音素-视觉嘴型对齐标注，研究者能够探索语音信号与面部肌肉运动之间的复杂映射关系，为构建逼真的虚拟数字人奠定数据基础。

衍生相关工作

该数据集催生了一系列创新性研究，包括基于Transformer的跨模态语音动画生成框架、对抗训练增强的实时嘴型同步系统等。其中最具代表性的是Viseme-BERT模型，通过预训练学习音素与视觉特征的联合表征，在CVPR等顶级会议引发广泛关注。后续研究进一步扩展了数据集的边界，开发出支持多语言、多方言的视觉语音合成基准体系。

数据集最近研究