GigaSpeech 2

Name: GigaSpeech 2
Creator: 人工智能重点实验室，X-LANCE实验室，上海交通大学
Published: 2024-06-17 21:44:20
License: 暂无描述

arXiv2024-06-17 更新2024-06-20 收录

下载链接：

https://huggingface.co/datasets/speechcolab/gigaspeech2

下载链接

链接失效反馈

官方服务：

资源简介：

GigaSpeech 2是由上海交通大学人工智能重点实验室X-LANCE实验室开发的大型、多领域、多语言自动语音识别语料库，专注于低资源语言。该数据集包含约30,000小时的自动转录语音，涵盖泰语、印尼语和越南语，数据来源于未标记的YouTube视频。创建过程中采用自动化管道进行数据爬取、转录和标签精炼，使用Whisper进行初步转录，TorchAudio进行强制对齐，并通过多维过滤确保数据质量。数据集的应用领域主要在于提升低资源语言的语音识别技术，解决传统ASR模型依赖大量标记训练数据的瓶颈问题。

GigaSpeech 2 is a large-scale, multi-domain, multilingual automatic speech recognition (ASR) corpus developed by X-LANCE Lab, Key Laboratory of Artificial Intelligence, Shanghai Jiao Tong University, focusing on low-resource languages. This corpus contains approximately 30,000 hours of automatically transcribed speech covering Thai, Indonesian and Vietnamese, with data sourced from unlabeled YouTube videos. During its development, an automated pipeline was adopted for data crawling, transcription and label refinement: Whisper was used for preliminary transcription, TorchAudio for forced alignment, and multi-dimensional filtering was implemented to ensure data quality. The primary application of this dataset is to advance speech recognition technologies for low-resource languages, addressing the bottleneck issue where traditional ASR models heavily rely on large volumes of labeled training data.

提供机构：

人工智能重点实验室，X-LANCE实验室，上海交通大学

创建时间：

2024-06-17

搜集汇总

数据集介绍

构建方式

GigaSpeech 2 数据集的构建采用了自动化的数据爬取、转录和标签精炼流程。首先，通过 YouTube 平台爬取大量未标注的音频数据，涵盖泰语、印尼语和越南语等多种低资源语言。随后，利用 Whisper 模型进行初步转录，并通过 TorchAudio 进行强制对齐，确保转录的准确性。为了进一步提升数据质量，引入了多维度的过滤机制，包括字符集过滤、语言置信度过滤和音频时长过滤等。最后，通过改进的 Noisy Student Training (NST) 方法对伪标签进行迭代精炼，逐步提升数据质量。

特点

GigaSpeech 2 数据集具有大规模、多领域和多语言的特点，涵盖了约 30,000 小时的自动转录语音数据，其中精炼后的数据集包含 10,000 小时的泰语、6,000 小时的印尼语和越南语数据。该数据集特别关注低资源语言，避免了传统语音识别数据集中对标注数据的依赖。通过自动化的数据爬取和精炼流程，GigaSpeech 2 提供了高质量的语音数据，适用于多种语音识别任务。

使用方法

GigaSpeech 2 数据集的使用方法主要包括模型的训练和评估。用户可以通过该数据集训练自动语音识别 (ASR) 模型，特别是在低资源语言上的表现。数据集提供了训练集、开发集和测试集，开发集和测试集包含手动转录的 10 小时数据，确保了评估的准确性。用户还可以利用改进的 Noisy Student Training (NST) 方法对模型进行迭代训练，进一步提升模型性能。实验结果表明，基于 GigaSpeech 2 训练的 ASR 模型在泰语、印尼语和越南语上的词错误率显著降低，性能优于现有的商业服务。

背景与挑战

背景概述

GigaSpeech 2是由上海交通大学、香港中文大学、清华大学等机构的研究团队于2024年发布的一个大规模、多领域、多语言的自动语音识别（ASR）语料库。该数据集旨在解决低资源语言的语音识别问题，特别是针对泰语、印尼语和越南语等东南亚语言。GigaSpeech 2包含了约30,000小时的自动转录语音数据，主要从YouTube视频中爬取，并通过自动化流程进行转录和标签优化。该数据集的创新之处在于其不依赖于成对的语音和文本数据，而是通过自动化的数据爬取、转录和过滤流程，结合改进的Noisy Student Training（NST）方法，逐步优化伪标签的质量。实验结果表明，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的识别任务中，相较于Whisper large-v3模型，词错误率降低了25%至40%，且仅使用了10%的模型参数。这一成果为低资源语言的语音识别研究开辟了新的方向。

当前挑战

GigaSpeech 2在构建过程中面临了多重挑战。首先，低资源语言的语音数据稀缺且分布不均，传统的语音识别模型依赖于大量标注数据，而这在低资源语言中难以实现。其次，自动转录的准确性难以保证，尤其是在YouTube视频中，自动生成的字幕往往与语音内容不完全匹配，导致数据质量参差不齐。为此，研究团队开发了一套自动化流程，结合Whisper进行初始转录，并使用TorchAudio进行强制对齐，同时通过多维度的过滤机制确保数据质量。此外，改进的Noisy Student Training方法被用于迭代优化伪标签，进一步提升了模型的性能。尽管取得了显著进展，GigaSpeech 2仍面临数据规模不足、领域不匹配等挑战，特别是在印尼语和越南语的数据量相对较少的情况下，模型的泛化能力仍有待提升。

常用场景

经典使用场景

GigaSpeech 2数据集在自动语音识别（ASR）领域中被广泛用于低资源语言的模型训练与评估。其经典使用场景包括多语言、多领域的语音识别任务，尤其是在泰语、印尼语和越南语等低资源语言的识别中表现出色。通过自动化的数据爬取、转录和标签优化流程，GigaSpeech 2为研究人员提供了一个高质量、大规模的语音数据集，极大地推动了低资源语言ASR模型的发展。

衍生相关工作

GigaSpeech 2的发布催生了一系列相关研究工作，尤其是在低资源语言ASR领域。基于GigaSpeech 2的研究成果，许多学者进一步优化了ASR模型的训练方法，尤其是在伪标签生成和数据过滤方面。此外，GigaSpeech 2的自动化数据生成流程也被广泛应用于其他低资源语言数据集的构建，推动了多语言语音识别技术的发展。其改进的Noisy Student Training方法也被其他领域的研究人员借鉴，用于提升其他类型数据集的标签质量。

数据集最近研究