GUAva
收藏github2023-02-21 更新2024-05-31 收录
下载链接:
https://github.com/lspcheng/GUAva
下载链接
链接失效反馈官方服务:
资源简介:
GUAva是一个YouTube语音语料库,最初灵感来源于Growing Up Asian American视频标签。它将用于研究亚洲北美个体的语言变异。
GUAva is a YouTube speech corpus, initially inspired by the 'Growing Up Asian American' video tag. It is intended for research on linguistic variations among Asian North American individuals.
创建时间:
2021-04-02
原始信息汇总
数据集概述
名称: GUAva
来源: 受“Growing Up Asian American”视频标签启发,源自YouTube。
目的: 用于研究亚洲北美个体中的语言变异。
数据处理工具: 使用LingTube和YouSpeak工具进行数据处理和分析。
数据内容:
- 原始数据: 视频URL列表,音频和英文字幕下载。
- 处理步骤:
- 数据抓取: 从YouTube抓取视频信息和URL。
- 文本处理: 清理和校正字幕文本。
- 音频处理: 转换音频格式,分割音频为短片段,验证音频片段的可使用性,创建文本网格,进行强制对齐和手动校正。
数据访问: 本仓库仅包含转录数据,音频部分需联系Lauretta Cheng获取。
使用指南:
- 字幕校正: 使用特定命令行工具进行字幕的手动校正。
- 音频片段验证: 通过命令行工具验证音频片段的可使用性。
- 对齐边界调整: 使用命令行工具调整文本网格中的对齐边界。
校正和分类指南:
- 字幕校正指南: 包括基本校正规则和详细校正规则,如去除非实际语音内容,修正错误转录,处理非英语语音等。
- 音频片段分类指南: 定义可使用和不可使用的音频片段标准,包括背景音乐、噪音、多重语音等因素。
- 语音编码指南: 提供语音编码的基本规则和特殊情况处理,如填充词添加、数字转写、缩写处理等。
搜集汇总
数据集介绍

构建方式
GUAva数据集的构建过程依托于LingTube工具套件,专为YouTube数据的语言分析而设计。首先,通过特定的YouTube视频URL列表,使用`yt-tools/scrape-channels.py`脚本获取频道信息及视频URL。随后,利用`yt-tools/scrape-videos.py`下载音频和英文字幕,并存储在相应的目录中。文本处理阶段,通过`tx-tools/clean-captions.py`清理字幕,并可选地使用`tx-tools/correct-captions.py`进行修正。音频处理则包括将音频转换为适合处理的格式,并通过`youspeak/chunk-audio.py`将长音频分割为短片段。最后,通过`youspeak/validate-chunks.py`验证音频片段,并使用Montreal Forced Aligner进行强制对齐和手动修正。
特点
GUAva数据集专注于研究北美亚裔个体的语言变异,其特点在于结合了YouTube视频的音频和字幕数据,提供了丰富的语言学研究素材。数据集中的音频片段经过精心处理,确保其清晰度和可用性,同时文本数据经过多次修正和验证,保证了转录的准确性。此外,数据集还包含了详细的处理指南和脚本使用方法,为研究者提供了便捷的工具和参考。
使用方法
使用GUAva数据集时,研究者可以通过LingTube工具套件中的脚本进行数据处理。例如,使用`correct-captions.py`脚本修正字幕,`validate-chunks.py`验证音频片段,以及`adjust-textgrids.py`调整对齐边界。这些脚本允许用户根据特定的族群代码或频道进行数据处理,确保数据的精确性和一致性。此外,数据集还提供了详细的转录修正、音频片段分类和语音编码指南,帮助研究者更好地理解和利用数据。
背景与挑战
背景概述
GUAva数据集是一个专注于研究北美亚裔个体语言变异的YouTube语音语料库,其灵感来源于‘Growing Up Asian American’视频标签。该数据集由LingTube工具套件创建和处理,旨在通过YouTube数据进行语言学分析。GUAva的开发与LingTube及其分支YouSpeak管道同步进行,后者专门用于对YouTube音频进行语音学研究。该数据集不仅为语言变异研究提供了丰富的资源,还展示了如何利用LingTube和YouSpeak工具进行语音数据的处理与分析。GUAva的创建标志着对亚裔北美社区语言使用的深入探索,为语言学家和社会学家提供了宝贵的研究素材。
当前挑战
GUAva数据集在构建过程中面临多重挑战。首先,语音数据的采集与处理需要克服YouTube视频中背景噪音、音乐干扰以及多说话者重叠等问题,确保语音片段的清晰度和可用性。其次,转录过程中需处理非标准发音、语码转换以及口语化表达,这要求转录者具备高度的语言学敏感性和细致的工作态度。此外,音频与文本的对齐过程复杂,需借助蒙特利尔强制对齐工具进行初步对齐,并辅以手动校正,以确保语音与文本的精确匹配。这些挑战不仅考验了数据处理的技术能力,也对研究者的耐心与细致提出了高要求。
常用场景
经典使用场景
GUAva数据集主要用于研究北美亚裔个体的语言变异现象。通过分析YouTube视频中的语音数据,研究者能够深入探讨亚裔群体在英语使用中的语音、语法和词汇特征,揭示其语言习惯与文化背景之间的复杂关系。这一数据集为语言学家提供了丰富的语音样本,支持对多语言环境下的语言变异进行系统性研究。
衍生相关工作
GUAva数据集的发布催生了一系列相关研究,尤其是在语言变异和语音技术领域。基于该数据集的研究工作包括对亚裔北美人的语音特征分析、跨文化语言使用模式的探讨,以及多语言语音识别系统的开发。此外,GUAva还推动了LingTube和YouSpeak等工具的应用,这些工具为语音数据的采集、处理和分析提供了标准化流程,进一步促进了语音学和计算语言学领域的研究进展。
数据集最近研究
最新研究方向
近年来,GUAva数据集在语言变异研究领域引起了广泛关注,尤其是在亚裔北美个体的语言特征分析方面。该数据集通过LingTube工具集和YouSpeak管道进行音频和文本的精细处理,为语音学研究提供了高质量的多模态数据。当前的研究方向主要集中在语音对齐、音位编码以及跨语言代码转换的语音特征分析。这些研究不仅深化了对亚裔北美英语变体的理解,还为语音识别和自然语言处理技术的跨文化适应性提供了重要参考。此外,GUAva数据集的应用还推动了基于YouTube数据的语音语料库构建方法的发展,为社交媒体语言研究开辟了新的路径。
以上内容由遇见数据集搜集并总结生成



