GigaSpeech 2

github2024-06-18 更新2024-06-19 收录

下载链接：

https://github.com/SpeechColab/GigaSpeech2

下载链接

链接失效反馈

官方服务：

资源简介：

GigaSpeech 2是一个大型、多领域的自动语音识别语料库，专注于低资源语言，包括自动爬取、转录和精炼过程。数据集包含泰语、印尼语和越南语，总计30,000小时自动转录的语音，以及10,000小时泰语、6,000小时印尼语和越南语的精炼数据。DEV和TEST集各有10小时，由专业人工标注，具有挑战性和现实性。

GigaSpeech 2系一款庞大而多元化的自动语音识别语料库，致力于低资源语言的开发。该语料库涵盖自动采集、转录及精炼等环节，并包含泰语、印尼语及越南语三种语言，总计30,000小时自动转录的语音数据，以及10,000小时泰语、6,000小时印尼语与越南语的精炼数据。DEV与TEST集各包含10小时，经专业人士人工标注，兼具挑战性与现实性。

创建时间：

2024-06-09

原始信息汇总

数据集概述

基本信息

数据集名称: GigaSpeech 2
版本: 2.0 (发布日期: 2024/06/19)
许可证: Apache2.0
支持平台: Linux
依赖库: TorchAudio 2.1.0+

数据集内容

音频来源

语言: Thai, Indonesian, Vietnamese
原始数据: 30,000小时自动转录的语音数据，涵盖Thai, Indonesian, Vietnamese。
精炼数据: 10,000小时Thai, 6,000小时Indonesian, 6,000小时Vietnamese。
DEV & TEST集: 每种语言10小时DEV和10小时TEST，由专业人工标注，具有挑战性和现实性。

训练子集

	Thai (小时)	Indonesian (小时)	Vietnamese (小时)
GigaSpeech 2 raw	12901.8	8112.9	7324.0
GigaSpeech 2 refined	10262.0	5714.0	6039.0

评估子集

	Thai (小时)	Indonesian (小时)	Vietnamese (小时)
GigaSpeech 2 DEV	10.0	10.0	10.2
GigaSpeech 2 TEST	10.0	10.0	11.0

数据处理

音频处理: 音频文件重采样至16 kHz，转换为单通道WAV格式。
文本预处理: 应用NFKC规范化，转换为大写，去除标点，将阿拉伯数字映射为相应语言的单词。
文本后处理: 应用NFKC规范化，转换为大写，去除标点，合并连续空格或去除所有空格，以确保不同工具或商业服务间的性能比较。

下载地址

数据集下载: GigaSpeech 2 on HuggingFace

引用信息

@article{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, journal={arXiv preprint arXiv:2406.11546}, year={2024}, }

搜集汇总

数据集介绍

构建方式

GigaSpeech 2数据集的构建过程融合了自动化与人工校验的精妙结合。首先，通过自动化爬虫技术，从多源获取了总计30,000小时的原始语音数据，涵盖泰语、印尼语和越南语。随后，这些数据经过初步的自动转录处理，形成了GigaSpeech 2 raw版本。为了确保数据质量，进一步筛选出10,000小时的泰语、6,000小时的印尼语和越南语数据，由专业人员进行精细校对，形成GigaSpeech 2 refined版本。此外，为了评估模型的性能，每种语言还特别准备了由专业人员标注的DEV和TEST子集，各10小时，确保了评估的准确性和挑战性。

特点

GigaSpeech 2数据集以其大规模、多语言和高质量的特点在语音识别领域独树一帜。首先，该数据集包含了30,000小时的原始语音数据和10,000小时的精细校对数据，为模型训练提供了丰富的资源。其次，数据集涵盖了泰语、印尼语和越南语三种语言，满足了多语言语音识别的需求。此外，DEV和TEST子集由专业人员标注，确保了评估数据的高质量和真实性，为模型的性能评估提供了可靠的依据。

使用方法

GigaSpeech 2数据集的使用方法简便且灵活。首先，用户可以通过HuggingFace和ModelScope平台下载数据集，并利用提供的预处理脚本进行数据准备。数据集的音频文件已预先处理为16 kHz的单通道WAV格式，文本转录也经过了标准化处理，便于直接用于模型训练。此外，数据集还提供了详细的文本预处理和后处理代码，确保了不同工具和平台之间的性能比较的一致性。用户可以根据需要选择不同的训练和评估子集，进行模型的训练和性能评估。

背景与挑战

背景概述

GigaSpeech 2数据集是由SpeechColab团队于2024年6月19日发布的，旨在推动低资源语言的自动语音识别（ASR）技术的发展。该数据集由上海交通大学、香港中文大学、清华大学等多家知名机构共同参与构建，涵盖了泰语、印尼语和越南语三种语言，总时长超过30,000小时。其核心研究问题在于通过大规模、多领域的语音数据集，提升低资源语言的语音识别性能，对语音识别领域的研究具有重要推动作用。

当前挑战

GigaSpeech 2数据集在构建过程中面临多重挑战。首先，数据集涵盖了三种低资源语言，语言多样性和数据稀缺性增加了数据收集和处理的复杂性。其次，数据集的构建涉及自动转录和人工校对，确保转录质量的准确性和一致性是一个重大挑战。此外，数据集的评估子集由专业人员标注，确保了评估的公正性和准确性，但也增加了成本和时间投入。最后，数据集的预处理和后处理步骤复杂，需要标准化处理以确保跨工具和服务的性能比较的公平性。

常用场景

经典使用场景

GigaSpeech 2数据集在自动语音识别（ASR）领域中被广泛应用于训练和评估多语言语音模型。其经典使用场景包括利用大规模的自动转录语音数据进行模型预训练，随后在精细标注的评估子集上进行微调和性能测试。通过这种方式，研究者能够有效提升模型在低资源语言上的识别准确率，为跨语言语音识别技术的发展提供了坚实的基础。

实际应用

在实际应用中，GigaSpeech 2数据集被用于开发和优化多语言语音识别系统，特别是在东南亚地区的泰语、印尼语和越南语等低资源语言中。这些系统广泛应用于语音助手、语音翻译、语音搜索等领域，极大地提升了用户体验和应用的普及率。此外，该数据集还支持了语音识别技术在教育、医疗和公共服务等领域的创新应用，推动了语音技术的社会化进程。

衍生相关工作

基于GigaSpeech 2数据集，研究者们开发了多种先进的语音识别模型和算法，如基于Zipformer和Conformer的模型，这些模型在低资源语言的识别任务中表现出色。此外，该数据集还催生了多个跨语言语音识别的研究项目，推动了多语言语音数据的共享和标准化。这些工作不仅提升了语音识别技术的整体水平，也为未来的语音技术研究提供了宝贵的数据资源和方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集