GUAva

github2023-02-21 更新2024-05-31 收录

下载链接：

https://github.com/lspcheng/GUAva

下载链接

链接失效反馈

官方服务：

资源简介：

GUAva是一个YouTube语音语料库，最初灵感来源于Growing Up Asian American视频标签。它将用于研究亚洲北美个体的语言变异。

GUAva is a YouTube speech corpus, initially inspired by the 'Growing Up Asian American' video tag. It is intended for research on linguistic variations among Asian North American individuals.

创建时间：

2021-04-02

原始信息汇总

数据集概述

名称： GUAva

来源： 受“Growing Up Asian American”视频标签启发，源自YouTube。

目的： 用于研究亚洲北美个体中的语言变异。

数据处理工具： 使用LingTube和YouSpeak工具进行数据处理和分析。

数据内容：

原始数据： 视频URL列表，音频和英文字幕下载。
处理步骤：
1. 数据抓取： 从YouTube抓取视频信息和URL。
2. 文本处理： 清理和校正字幕文本。
3. 音频处理： 转换音频格式，分割音频为短片段，验证音频片段的可使用性，创建文本网格，进行强制对齐和手动校正。

数据访问： 本仓库仅包含转录数据，音频部分需联系Lauretta Cheng获取。

使用指南：

字幕校正： 使用特定命令行工具进行字幕的手动校正。
音频片段验证： 通过命令行工具验证音频片段的可使用性。
对齐边界调整： 使用命令行工具调整文本网格中的对齐边界。

校正和分类指南：

字幕校正指南： 包括基本校正规则和详细校正规则，如去除非实际语音内容，修正错误转录，处理非英语语音等。
音频片段分类指南： 定义可使用和不可使用的音频片段标准，包括背景音乐、噪音、多重语音等因素。
语音编码指南： 提供语音编码的基本规则和特殊情况处理，如填充词添加、数字转写、缩写处理等。

搜集汇总

数据集介绍

构建方式

GUAva数据集的构建过程依托于LingTube工具套件，专为YouTube数据的语言分析而设计。首先，通过特定的YouTube视频URL列表，使用`yt-tools/scrape-channels.py`脚本获取频道信息及视频URL。随后，利用`yt-tools/scrape-videos.py`下载音频和英文字幕，并存储在相应的目录中。文本处理阶段，通过`tx-tools/clean-captions.py`清理字幕，并可选地使用`tx-tools/correct-captions.py`进行修正。音频处理则包括将音频转换为适合处理的格式，并通过`youspeak/chunk-audio.py`将长音频分割为短片段。最后，通过`youspeak/validate-chunks.py`验证音频片段，并使用Montreal Forced Aligner进行强制对齐和手动修正。

特点

GUAva数据集专注于研究北美亚裔个体的语言变异，其特点在于结合了YouTube视频的音频和字幕数据，提供了丰富的语言学研究素材。数据集中的音频片段经过精心处理，确保其清晰度和可用性，同时文本数据经过多次修正和验证，保证了转录的准确性。此外，数据集还包含了详细的处理指南和脚本使用方法，为研究者提供了便捷的工具和参考。

使用方法

使用GUAva数据集时，研究者可以通过LingTube工具套件中的脚本进行数据处理。例如，使用`correct-captions.py`脚本修正字幕，`validate-chunks.py`验证音频片段，以及`adjust-textgrids.py`调整对齐边界。这些脚本允许用户根据特定的族群代码或频道进行数据处理，确保数据的精确性和一致性。此外，数据集还提供了详细的转录修正、音频片段分类和语音编码指南，帮助研究者更好地理解和利用数据。

背景与挑战

背景概述

GUAva数据集是一个专注于研究北美亚裔个体语言变异的YouTube语音语料库，其灵感来源于‘Growing Up Asian American’视频标签。该数据集由LingTube工具套件创建和处理，旨在通过YouTube数据进行语言学分析。GUAva的开发与LingTube及其分支YouSpeak管道同步进行，后者专门用于对YouTube音频进行语音学研究。该数据集不仅为语言变异研究提供了丰富的资源，还展示了如何利用LingTube和YouSpeak工具进行语音数据的处理与分析。GUAva的创建标志着对亚裔北美社区语言使用的深入探索，为语言学家和社会学家提供了宝贵的研究素材。

当前挑战

GUAva数据集在构建过程中面临多重挑战。首先，语音数据的采集与处理需要克服YouTube视频中背景噪音、音乐干扰以及多说话者重叠等问题，确保语音片段的清晰度和可用性。其次，转录过程中需处理非标准发音、语码转换以及口语化表达，这要求转录者具备高度的语言学敏感性和细致的工作态度。此外，音频与文本的对齐过程复杂，需借助蒙特利尔强制对齐工具进行初步对齐，并辅以手动校正，以确保语音与文本的精确匹配。这些挑战不仅考验了数据处理的技术能力，也对研究者的耐心与细致提出了高要求。

常用场景

经典使用场景

GUAva数据集主要用于研究北美亚裔个体的语言变异现象。通过分析YouTube视频中的语音数据，研究者能够深入探讨亚裔群体在英语使用中的语音、语法和词汇特征，揭示其语言习惯与文化背景之间的复杂关系。这一数据集为语言学家提供了丰富的语音样本，支持对多语言环境下的语言变异进行系统性研究。

衍生相关工作

GUAva数据集的发布催生了一系列相关研究，尤其是在语言变异和语音技术领域。基于该数据集的研究工作包括对亚裔北美人的语音特征分析、跨文化语言使用模式的探讨，以及多语言语音识别系统的开发。此外，GUAva还推动了LingTube和YouSpeak等工具的应用，这些工具为语音数据的采集、处理和分析提供了标准化流程，进一步促进了语音学和计算语言学领域的研究进展。

数据集最近研究