vtl-speech-landmarks

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/mcamara/vtl-speech-landmarks

下载链接

链接失效反馈

官方服务：

资源简介：

VTL语音地标数据集是一个用于发音语音合成的数据集，包含通过VocalTractLab（VTL）生成的带有声学地标的合成语音。数据集包含来自CMU发音词典的117,497个英语单词，由两名说话者（男性和女性）生成。每个单词包含：48kHz的WAV音频文件、声学-语音事件标记（JSON格式）以及VTL提供的完整声道轨迹（JSON格式）。数据集结构按说话者性别组织，包含音频、地标和发音数据三个子目录。地标类型包括元音、滑音、塞音闭合/释放、擦音闭合/释放以及鼻音闭合/释放等。该数据集适用于声学-语音研究、语音识别训练数据、文本到语音开发、语音地标检测模型以及发音合成研究等领域。

创建时间：

2026-01-29

搜集汇总

数据集介绍

构建方式

在语音合成与发音研究领域，VTL Speech Landmarks 数据集的构建体现了计算语音学的前沿方法。该数据集以 CMU 发音词典中的 117,497 个英文单词为基础，通过 VocalTractLab 这一先进的发音合成器生成语音信号。合成过程模拟了男性和女性两种发音者的声道特性，并基于能量检测算法从频谱分析中提取出八类声学-语音事件标记，如元音能量峰值、塞音闭合与释放等。同时，系统记录了完整的声道轨迹数据，包括软腭开合、舌位收缩等发音器官运动参数，从而形成了音频、声学标记与发音数据三位一体的结构化语料。

特点

该数据集的核心特点在于其多维度的语音表征体系。除了包含 48kHz 高保真音频外，还提供了精细的声学标记数据，这些标记覆盖了元音、滑音、塞音、擦音和鼻音等关键语音事件的时序与类型信息。每个单词均配有 ARPABET 音标与 VTL 音素映射，以及音素级别的时长标注。发音数据以 400Hz 的采样率捕捉了声道截面积变化等连续的发音运动轨迹。数据集通过男女发音者的对比设计，展现了基频与强调系数等声学参数的差异，为研究发音变异与语音合成提供了丰富的对照资源。

使用方法

研究人员可通过 Hugging Face Hub 的 API 便捷地访问该数据集中的特定文件。典型的使用流程包括下载指定发音者的音频文件、声学标记 JSON 文件或发音轨迹 JSON 文件。声学标记文件结构清晰，包含单词、发音、时长及标记列表，便于直接解析并用于语音事件检测模型的训练或评估。发音数据文件则提供了时间序列的声道参数，适用于发音合成或发音建模研究。音频文件可采用标准库加载与播放，从而支持声学分析、语音识别系统开发或文本到语音合成系统的数据增强等多样化应用场景。

背景与挑战

背景概述

在计算语音学与发音合成领域，高保真的声学与发音数据对于推动语音识别与合成技术的发展至关重要。VTL Speech Landmarks数据集由研究人员于2025年构建并发布，依托卡内基梅隆大学发音词典的词汇资源，采用VocalTractLab发音合成器生成大规模合成语音。该数据集的核心研究问题在于提供精细的声学-发音对应关系，通过标注声学地标与声道轨迹数据，为语音合成、发音建模及声学事件检测等任务提供结构化基准。其多模态数据整合了音频、地标时序及发音参数，显著促进了发音语音合成与语音分析领域的实证研究，为相关算法模型的训练与评估提供了关键资源。

当前挑战

该数据集旨在解决发音语音合成与声学地标检测中的核心挑战，即如何精确建模声学事件与发音动作之间的复杂对应关系。声学地标的自动识别易受频谱变异与协同发音效应干扰，导致地标类型（如元音峰值或塞音释放）的时序标注存在不确定性。在构建过程中，挑战主要源于大规模合成数据的生成与标注：VocalTractLab合成器需模拟男女声道的生理差异，确保发音参数的真实性；同时，能量基的地标提取方法需应对不同语音环境下的频谱变化，以保证地标标注的置信度与一致性。此外，从ARPABET到VTL音素的映射与二合元音扩展也引入了音系表征的转换复杂性。

常用场景

经典使用场景

在计算语音学领域，vtl-speech-landmarks数据集为研究者提供了丰富的合成语音资源，其经典使用场景聚焦于声学-发音合成模型的训练与评估。该数据集通过VocalTractLab生成的发音轨迹与声学标志点，能够精确模拟人类发音器官的运动过程，为构建高保真度的语音合成系统奠定数据基础。研究人员利用其包含的音频、标志点及发音数据，可深入探索语音产生的物理机制，优化合成语音的自然度与清晰度，尤其在模拟不同性别说话者的声学特性方面展现出独特价值。

解决学术问题

该数据集有效解决了语音合成研究中发音建模数据稀缺的核心问题。传统方法往往依赖有限的真实发音记录，难以全面捕捉发音器官的复杂运动。vtl-speech-landmarks通过大规模合成数据，提供了完整的声门到唇腔的发音轨迹，使得研究者能够系统分析音素转换过程中的声学-发音对应关系。这不仅促进了发音合成算法的改进，还为语音产生的理论建模提供了可验证的数据支撑，推动了计算语音学在物理建模方向的深入发展。

衍生相关工作

基于该数据集衍生的经典工作主要集中在发音合成与声学分析交叉领域。部分研究利用其发音轨迹数据训练神经网络，实现了从文本到发音参数的端到端合成系统。另一些工作则聚焦于声学标志点的自动检测算法，通过深度学习模型提升标志点定位的鲁棒性。此外，该数据集还促进了多模态语音合成方法的发展，研究者通过联合建模发音运动与声学特征，探索了更具表现力的语音生成技术，为下一代语音交互系统提供了创新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集