VoxAngeles

github2024-03-24 更新2024-05-31 收录

下载链接：

https://github.com/pacscilab/voxangeles

下载链接

链接失效反馈

官方服务：

资源简介：

VoxAngeles是一个经过审核的语音转录和电话级对齐的语料库，包含UCLA语音学实验室档案的语音分割。该语料库包括95种语言的语音测量数据，如单词和电话时长、元音f0和元音共振峰。此外，还提供了11种语言的未经审核的自动对齐数据。

VoxAngeles is a curated corpus of speech transcriptions and phone-level alignments, encompassing speech segments from the UCLA Phonetics Laboratory archives. This corpus includes phonetic measurements for 95 languages, such as word and phone durations, vowel f0, and vowel formants. Additionally, it provides uncurated automatic alignment data for 11 languages.

创建时间：

2023-10-14

原始信息汇总

数据集概述

名称: VoxAngeles Corpus

描述: VoxAngeles是一个包含经过审核的音素转录和音素级对齐的数据集，源自UCLA音韵学实验室档案（Ladefoged et al., 2009）。该数据集还包括音素测量，如词和音素时长、元音基频和元音共振峰。审核部分的数据集目前包含来自21个语系的95种语言的数据。此外，还提供了另外11种语言的未经审核的自动对齐数据。

数据集内容

数据目录:
- audited_aligned: 包含手动校正的音素级对齐和审核的音素转录，用于词级分割。
- phonetic_measurements: 包含从processing/phonetic_extraction脚本中得到的音素测量结果。
- unaudited: 包含直接从UCLA音韵学实验室档案获取的未经手动校正的音素级对齐和原始音素转录。
lrec-coling_analyses目录: 包含用于LREC-COLING 2024论文分析的数据和R处理脚本，包括VoxAngeles与UCLA转录的比较、VoxAngeles与MFA对齐的比较、内在基频分析及地图创建。
processing目录:
- forced_alignment: 包含使用蒙特利尔强制对齐器（MFA）和Interlingual-MFA工具包对UCLA音韵学实验室档案进行强制对齐的过程文档。
- phonetic_extraction: 包含用于提取音素测量（时长、角元音共振峰、角元音基频）的Praat脚本。
transcription目录: 包含用于生成参考文件voxangeles_transcriptions.tsv的文件，该文件包含审核和更新后的转录列表。

引用信息

使用该数据集时，请引用以下文献：

Chodroff, E., Pažon, B., Baker, A., and Moran, S. (2024). Phonetic segmentation of the UCLA Phonetics Lab Archive. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). Turin, Italy.

搜集汇总

数据集介绍

构建方式

VoxAngeles语料库的构建基于UCLA语音实验室档案，通过手动校正和自动对齐的方式，生成了音素级别的对齐和语音转录。该数据集涵盖了95种语言，跨越21个语系，并包含了未经审核的自动对齐数据。构建过程中，使用了蒙特利尔强制对齐器（MFA）和Interlingual-MFA工具包进行强制对齐，并通过Praat脚本提取了语音测量数据，如音素时长、元音基频和共振峰。

使用方法

使用VoxAngeles语料库时，研究者可以通过访问数据目录中的不同子目录获取所需的语音数据。手动校正的音素对齐和语音转录存储在`audited_aligned`目录中，而未经审核的自动对齐数据则位于`unaudited`目录。语音测量数据可在`phonetic_measurements`目录中找到。此外，`processing`目录中的脚本和工具可用于进一步处理和分析语音数据，如强制对齐和语音特征提取。

背景与挑战

背景概述

VoxAngeles语料库是基于加州大学洛杉矶分校（UCLA）语音实验室档案（Ladefoged et al., 2009）构建的语音数据集，专注于音位层面的语音分割与标注。该数据集由Chodroff等人于2024年发布，旨在提供经过审核的音位转录和音素对齐数据，涵盖95种语言和21个语系。其核心研究问题在于如何通过精确的音位标注和语音测量（如音长、基频和共振峰）来支持跨语言的语音学研究。VoxAngeles不仅为语音学家提供了丰富的数据资源，还通过其详细的音位标注和测量数据，推动了语音识别、语音合成等领域的算法优化与模型训练。

当前挑战

VoxAngeles数据集在构建过程中面临多重挑战。首先，音位标注的精确性要求极高，需结合原始田野笔记进行人工审核，以确保转录的准确性，这一过程耗时且复杂。其次，跨语言的语音数据存在显著差异，如何在多语言环境下实现一致的音素对齐和测量，是技术上的重要难题。此外，自动对齐工具（如Montreal Forced Aligner）在处理某些语言时可能产生误差，需通过人工干预进行修正。这些挑战不仅体现在数据构建的技术层面，也反映了语音学研究中对数据质量和一致性的高要求。

常用场景

经典使用场景

VoxAngeles数据集在语音学研究领域具有广泛的应用，尤其是在语音分割和音素对齐方面。研究者可以利用该数据集对UCLA语音实验室档案中的语音数据进行精确的音素级别对齐和转录，从而深入分析不同语言的语音特征。该数据集为语音学家提供了一个标准化的工具，用于比较和分析多种语言的语音结构。

解决学术问题

VoxAngeles数据集解决了语音学研究中音素对齐和转录的难题。通过提供手动校正的音素对齐和转录数据，该数据集显著提高了语音分析的准确性。此外，数据集中的语音测量数据（如音长、元音基频和共振峰）为研究者提供了丰富的语音特征信息，有助于深入理解不同语言的语音系统。

实际应用

在实际应用中，VoxAngeles数据集被广泛用于语音识别和语音合成系统的开发。通过利用该数据集中的音素对齐和转录数据，研究者可以训练更精确的语音识别模型，从而提高语音识别系统的性能。此外，该数据集还可用于开发多语言语音合成系统，为不同语言的语音合成提供基础数据支持。

数据集最近研究