GigaSpeech 2

github2024-06-10 更新2024-06-12 收录

下载链接：

https://github.com/yfyeung/GigaSpeech2

下载链接

链接失效反馈

官方服务：

资源简介：

GigaSpeech 2是一个针对低资源语言的大规模、多领域自动语音识别语料库，包含自动爬取、转录和精炼过程。数据集包含30,000小时的自动转录语音，涵盖泰语、印尼语和越南语，以及由专业人类注释者转录的10,000小时泰语、6,000小时印尼语和越南语的精炼版本。

GigaSpeech 2 is a large-scale, multi-domain automatic speech recognition corpus designed for low-resource languages, encompassing processes of automatic crawling, transcription, and refinement. The dataset includes 30,000 hours of automatically transcribed speech covering Thai, Indonesian, and Vietnamese, along with refined versions of 10,000 hours of Thai, 6,000 hours of Indonesian, and Vietnamese speech transcribed by professional human annotators.

创建时间：

2024-06-09

原始信息汇总

数据集概述

基本信息

数据集名称: GigaSpeech 2
版本: 2.0 (发布日期: 2024/06/19)
许可证: Apache 2.0
支持平台: Linux
依赖库: TorchAudio 2.1.0+

数据集内容

语言: 泰语 (Thai), 印度尼西亚语 (Indonesian), 越南语 (Vietnamese)
音频源:
- GigaSpeech 2 原始: 30,000小时自动转录的语音
- GigaSpeech 2 精炼: 10,000小时泰语, 6,000小时印度尼西亚语和越南语
- DEV & TEST 集: 每种语言10小时的DEV集和10小时的TEST集, 由专业人工标注

训练与评估子集

训练子集:

子集泰语 (小时) 印度尼西亚语 (小时) 越南语 (小时)

GigaSpeech 2 原始 12901.8 8112.9 7324.0

GigaSpeech 2 精炼 10262.0 5714.0 6039.0
评估子集:

子集泰语 (小时) 印度尼西亚语 (小时) 越南语 (小时)

GigaSpeech 2 DEV 10.0 10.0 10.2

GigaSpeech 2 TEST 10.0 10.0 11.0

数据处理

音频处理: 音频文件重采样至16 kHz, 转换为单通道WAV格式
文本预处理: 应用NFKC, 转换为大写, 移除标点, 将阿拉伯数字映射为对应语言的单词
文本后处理: 应用NFKC, 转换为大写, 移除标点, 合并连续空白或移除所有空白, 以确保不同工具或商业服务间的性能比较

下载地址

GigaSpeech 2 数据集: HuggingFace

引用信息

@article{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, journal={arXiv preprint arXiv:2406.11546}, year={2024}, }

搜集汇总

数据集介绍

构建方式

GigaSpeech 2数据集的构建过程融合了自动化与人工校验的精妙结合。首先，通过自动化爬取技术，收集了涵盖泰语、印尼语和越南语的30,000小时语音数据。随后，这些数据经过初步转录，形成GigaSpeech 2 raw版本。为进一步提高数据质量，10,000小时的泰语、6,000小时的印尼语和越南语数据由专业人员进行精细校对，形成GigaSpeech 2 refined版本。此外，DEV和TEST子集各10小时的数据由专业人员进行标注，确保评估的准确性和挑战性。

特点

GigaSpeech 2数据集以其大规模、多语言和高质量的特点脱颖而出。该数据集包含30,000小时的自动转录语音和10,000小时的人工校对语音，覆盖泰语、印尼语和越南语。DEV和TEST子集由专业人员标注，确保了评估的准确性和挑战性。此外，数据集的音频文件经过16 kHz重采样并转换为单通道WAV格式，文本数据经过标准化处理，确保了跨工具和服务的性能比较的一致性。

使用方法

GigaSpeech 2数据集可通过HuggingFace和ModelScope平台进行下载，并提供了预训练模型供直接使用。数据集的准备脚本将很快在Lhotse和ESPNet平台上发布。使用者可以通过提供的Python代码片段对文本进行后处理，确保与数据集的标准化处理一致。此外，数据集支持多种语言的语音识别任务，适用于不同语言模型的训练和评估。

背景与挑战

背景概述

GigaSpeech 2数据集是由上海交通大学、香港中文大学、清华大学等多所知名机构联合开发的大型语音识别数据集，于2024年6月19日正式发布。该数据集旨在解决低资源语言的自动语音识别（ASR）问题，涵盖泰语、印尼语和越南语三种语言，总时长超过30,000小时。GigaSpeech 2不仅提供了大量的自动转录语音数据，还包括由专业人员标注的验证和测试集，以确保数据的高质量和实用性。该数据集的发布对推动低资源语言的语音识别技术发展具有重要意义，为研究人员提供了丰富的资源和基准测试数据。

当前挑战

GigaSpeech 2数据集在构建过程中面临多项挑战。首先，数据集涵盖了三种低资源语言，这些语言的语音特征和词汇多样性增加了数据处理的复杂性。其次，自动转录的准确性问题需要通过专业人员的精细标注来弥补，这增加了数据集构建的成本和时间。此外，数据集的多样性和大规模特性要求高效的音频处理和文本预处理技术，以确保数据的一致性和可用性。最后，如何确保数据集在不同工具包和模型中的兼容性和可重复性，也是一个重要的挑战。

常用场景

经典使用场景

GigaSpeech 2数据集在自动语音识别（ASR）领域中具有经典的使用场景，主要用于训练和评估多语言语音识别模型。该数据集包含了大量的泰语、印尼语和越南语的语音数据，为研究人员提供了丰富的资源来开发和优化针对这些低资源语言的ASR系统。通过使用GigaSpeech 2，研究人员可以构建和测试具有高准确性的语音识别模型，从而推动多语言语音技术的进步。

衍生相关工作

GigaSpeech 2数据集的发布催生了多项相关研究工作，特别是在低资源语言的语音识别领域。例如，基于GigaSpeech 2的预训练模型已经在多个公开的语音识别竞赛中取得了优异成绩，展示了其在实际应用中的潜力。此外，研究人员还利用该数据集开发了新的语音识别算法和模型架构，进一步推动了语音技术的发展。这些衍生工作不仅丰富了学术研究的内容，也为工业界提供了有价值的参考。

数据集最近研究

子集	泰语 (小时)	印度尼西亚语 (小时)	越南语 (小时)
GigaSpeech 2 原始	12901.8	8112.9	7324.0
GigaSpeech 2 精炼	10262.0	5714.0	6039.0