gigaspeech2|自动语音识别数据集|低资源语言数据集

huggingface2024-06-19 更新2024-12-12 收录

自动语音识别

低资源语言

下载链接：

https://huggingface.co/datasets/speechcolab/gigaspeech2

下载链接

链接失效反馈

资源简介：

GigaSpeech 2是一个专注于低资源语言的大规模、多领域、多语言自动语音识别（ASR）语料库。它包含约30,000小时的自动转录语音，覆盖泰语、印尼语和越南语。数据集分为原始和精细两个版本，分别包含不同程度的转录数据。此外，数据集还提供了详细的结构、创建过程、许可证信息和访问条款。

创建时间：

2024-06-05

原始信息汇总

数据集卡片 for GigaSpeech 2

数据集描述

GigaSpeech 2 是一个不断发展的大规模、多领域、多语言的自动语音识别（ASR）语料库，专注于低资源语言。GigaSpeech 2 原始版本包含约 30,000 小时的自动转录语音，涵盖泰语、印尼语和越南语。GigaSpeech 2 精炼版本包含 10,000 小时的泰语、6,000 小时的印尼语和越南语。

支持的任务和排行榜

automatic-speech-recognition：该数据集可用于训练自动语音识别（ASR）模型。模型接收音频文件并将其转录为书面文本。评估指标包括泰语的字符错误率（CER）和印尼语及越南语的词错误率（WER）。任务有一个活跃的排行榜，可以在这里找到，并根据 WER 对模型进行排名。

语言

GigaSpeech 2 包含泰语、印尼语和越南语的音频和转录数据。

数据集结构

数据实例

shell Audio file (.wav): Channels: 1 Sample Rate: 16000 Sample Encoding: 16-bit Signed Integer PCM

Transcript file (.tsv): <segment_id> <text>

数据字段

segment_id (string) - 段落的字符串 ID。
text (string) - 段落的转录文本。

数据分割

数据集包含每个语言的三个子集：训练集（train）、开发集（dev）和测试集（test）。训练集有两种配置：原始（raw）和精炼（refined）。train_raw 包含 train_refined 的所有数据。

转录训练子集大小

	泰语（小时）	印尼语（小时）	越南语（小时）
GigaSpeech 2 raw	12901.8	8112.9	7324.0
GigaSpeech 2 refined	10262.0	5714.0	6039.0

GigaSpeech 2 raw 包含 GigaSpeech 2 refined 的所有数据。

转录评估子集

	泰语（小时）	印尼语（小时）	越南语（小时）
GigaSpeech 2 dev	10.0	10.0	10.2
GigaSpeech 2 test	10.0	10.0	11.0

数据集创建

源数据

GigaSpeech 2 raw：30,000 小时的自动转录语音，涵盖泰语、印尼语和越南语。
GigaSpeech 2 refined：10,000 小时的泰语、6,000 小时的印尼语和越南语。
GigaSpeech 2 DEV & TEST：每个语言的 DEV 和 TEST 各 10 小时，由专业人工标注者转录，具有挑战性和现实性。

标注

标注者是谁？

开发（DEV）和测试（TEST）子集由专业人工标注者标注。

许可信息

SpeechColab 不拥有音频文件的版权。对于希望将音频文件用于非商业研究和/或教育目的的研究人员和教育工作者，我们可以在特定条件和条款下通过我们的网站提供访问权限。

引用信息

如果您发现此工作有用，请引用此论文：

bibtext @article{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, journal={arXiv preprint arXiv:2406.11546}, year={2024}, }

访问条款

研究人员已请求使用清华大学 GigaSpeech 2 数据库（“数据库”）的权限。作为交换，研究人员同意以下条款和条件：

研究人员仅可将数据库用于非商业研究和教育目的。
SpeechColab 团队和清华大学对数据库不做任何陈述或保证，包括但不限于非侵权或适合特定目的的保证。
研究人员对其使用数据库承担全部责任，并应保护和赔偿 SpeechColab 团队和清华大学，包括其员工、受托人、官员和代理人，免受因研究人员使用数据库而产生的任何和所有索赔，包括但不限于研究人员可能从数据库创建的任何版权音频文件的使用。
研究人员可向研究同事提供数据库访问权限，前提是他们首先同意遵守这些条款和条件。
SpeechColab 团队和清华大学保留随时终止研究人员访问数据库的权利。
如果研究人员受雇于营利性商业实体，其雇主也应受这些条款和条件的约束，并且研究人员在此表示他或她完全有权代表该雇主进入本协议。

AI搜集汇总

数据集介绍

构建方式

GigaSpeech2数据集的构建过程体现了大规模语音数据处理的先进技术。该数据集通过自动化的语音识别系统从公开的音频资源中提取语音数据，并经过多轮人工校对以确保数据的准确性和质量。构建过程中，特别注重了语音的多样性和覆盖范围，涵盖了多种语言、方言和口音，以适应不同研究需求。

特点

GigaSpeech2数据集以其庞大的数据量和高质量的数据标注而著称。该数据集包含了数万小时的语音数据，涵盖了从日常对话到专业讲座的多种语音场景。此外，数据集还提供了详细的元数据信息，如说话者的性别、年龄和语言背景，为语音识别和自然语言处理领域的研究提供了丰富的资源。

使用方法

使用GigaSpeech2数据集时，研究人员可以通过其提供的API接口轻松访问和下载所需数据。数据集支持多种格式，便于集成到现有的语音处理框架中。此外，GigaSpeech2还提供了详细的文档和示例代码，帮助用户快速上手并进行高效的实验设计。

背景与挑战

背景概述

GigaSpeech2数据集是由X-LANCE实验室于2023年发布的大规模多语言语音识别数据集，旨在推动语音识别技术在多样化和复杂场景中的应用。该数据集涵盖了超过10万小时的语音数据，涉及多种语言和方言，数据来源包括公开演讲、广播、播客等多种形式。GigaSpeech2的发布填补了多语言语音识别领域大规模数据集的空白，为研究人员提供了丰富的资源，以探索跨语言语音识别模型的泛化能力和鲁棒性。该数据集的出现显著推动了语音识别技术在全球化背景下的应用，尤其是在低资源语言和方言的识别任务中展现了重要价值。

当前挑战

GigaSpeech2数据集在构建和应用中面临多重挑战。首先，多语言语音数据的采集和标注需要克服语言多样性和方言差异带来的复杂性，确保数据的高质量和一致性。其次，数据集的规模庞大，对存储、处理和计算资源提出了极高要求，尤其是在训练深度学习模型时，计算成本和时间开销显著增加。此外，多语言语音识别任务本身具有挑战性，不同语言之间的语音特征差异显著，模型需要具备强大的泛化能力以应对跨语言场景。最后，数据隐私和伦理问题也是构建过程中不可忽视的挑战，尤其是在处理公开演讲和广播数据时，需确保数据的合法性和合规性。

常用场景

经典使用场景

在语音识别和自然语言处理领域，gigaspeech2数据集被广泛应用于训练和评估大规模语音识别模型。其丰富的语音样本和多样化的语言环境为研究者提供了宝贵的资源，使得模型能够在多种实际场景下进行测试和优化。

衍生相关工作

基于gigaspeech2数据集，研究者们开发了多种先进的语音识别模型和算法。这些工作不仅推动了语音识别技术的发展，还为其他相关领域如自然语言处理和机器翻译提供了重要的参考和借鉴。

数据集最近研究