GigaSpeech
收藏arXiv2021-06-13 更新2024-07-25 收录
下载链接:
https://github.com/SpeechColab/GigaSpeech
下载链接
链接失效反馈官方服务:
资源简介:
GigaSpeech是一个不断进化的多领域英语语音识别语料库,由清华大学电子工程系等机构创建,包含10,000小时高质量标注音频,适用于监督训练,总音频达40,000小时,适合半监督和无监督训练。数据集从有声书、播客和YouTube收集,涵盖阅读和自发讲话风格,以及艺术、科学、体育等多个话题。创建过程包括音频收集、文本规范化、强制对齐、音频分割、段验证等步骤。GigaSpeech旨在推动语音识别技术的发展,解决现有数据集性能饱和的问题。
GigaSpeech is an evolving, multi-domain English speech recognition corpus created by institutions including the Department of Electronic Engineering at Tsinghua University and others. It features 10,000 hours of high-quality annotated audio optimized for supervised training, with a total audio duration of 40,000 hours that is suitable for both semi-supervised and unsupervised training. The corpus is collected from audiobooks, podcasts and YouTube, covering both read and spontaneous speech styles, as well as a wide range of topics such as art, science, sports and more. Its creation process encompasses audio collection, text normalization, forced alignment, audio segmentation, segment validation and other standard processing steps. GigaSpeech aims to advance the development of speech recognition technology and address the performance saturation issue of existing datasets.
提供机构:
清华大学电子工程系
创建时间:
2021-06-13
原始信息汇总
GigaSpeech 数据集概述
数据集版本
- 版本:1.0.0
- 发布日期:2021年7月5日
数据集下载
- 下载步骤:
- 填写Google表单以获取访问权限。
- 选择以下任一选项:
- 选项A:按照回复邮件中的指示获取原始发布版本。
- 选项B:通过HuggingFace获取预处理版本。
数据集详情
音频来源
- 语言:英语
- 总时长:33,005小时(包括10,000小时高质量人工转录)
| 音频来源 | 转录时长(小时) | 总时长(小时) | 声学条件 |
|---|---|---|---|
| 有声书 | 2,655 | 11,982 | 阅读;各种年龄和口音 |
| 播客 | 3,498 | 9,254 | 干净或有背景音乐;室内;近场;即兴;各种年龄和口音 |
| YouTube | 3,845 | 11,768 | 干净和嘈杂;室内和室外;近场和远场;阅读和即兴;各种年龄和口音 |
| 总计 | 10,000 | 33,005 |
转录训练子集
| 子集 | 时长(小时) | 备注 |
|---|---|---|
| XS | 10 | 系统构建和调试 |
| S | 250 | 快速研究实验 |
| M | 1,000 | 大规模研究实验 |
| L | 2,500 | 中等规模工业实验 |
| XL | 10,000 | 大规模工业实验 |
转录评估子集
| 子集 | 时长(小时) | 备注 |
|---|---|---|
| Dev | 12 | 从爬取的播客和YouTube数据中随机选择 |
| Test | 40 | 部分从爬取的播客和YouTube数据中随机选择;部分通过其他渠道手动收集以获得更好覆盖 |
数据准备指南
- 数据准备脚本:为不同语音识别工具包提供数据准备脚本,如Kaldi的脚本位于
toolkits/kaldi目录下。
元数据文件
- 文件名:GigaSpeech.json
- 内容:包含音频文件、段落、转录文本等信息。
音频处理
- 采样率:16 kHz
- 格式:Opus压缩格式
文本预处理
- 标点符号:保留四种标点符号(<COMMA>, <PERIOD>, <QUESTIONMARK>, <EXCLAMATIONPOINT>)
- 垃圾话语标签:用于非语音段,建议在训练中丢弃。
文本后处理
- 对话填充词:建议在WER评分前移除这些填充词,以确保不同工具包之间的性能比较。
引用
- 请引用以下论文: bibtext @inproceedings{GigaSpeech2021, title={GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio}, booktitle={Proc. Interspeech 2021}, year=2021, author={Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan} }
搜集汇总
数据集介绍

构建方式
GigaSpeech数据集的构建始于对感兴趣的类别进行手动定义,包括艺术、商业、教育等多个领域。随后,从有声读物、播客和YouTube等来源收集了大约40,000小时的音频数据,这些数据涵盖了朗读和自发说话的风格,以及艺术、科学、体育等多种主题。为了创建适合语音识别训练的句子片段,并过滤掉转录质量低的片段,提出了一种新的强制对齐和分割流程。为了系统训练,GigaSpeech提供了五个不同大小的子集,分别为10小时、250小时、1000小时、2500小时和10000小时。对于10,000小时的XL训练子集,在过滤/验证阶段将词错误率限制在4%以内,而所有其他较小的训练子集将其限制在0%以内。另一方面,开发集和测试集则由专业人工转录员重新处理,以确保高转录质量。
特点
GigaSpeech数据集的特点在于其扩展性、大规模、多源、多风格、多主题以及原始/规范化转录对。首先,该数据集的元数据设计得可以轻松地用于其他任务,如说话人识别。其次,GigaSpeech拥有10,000小时的转录语音,规模庞大。此外,它涵盖了有声读物、播客和YouTube等多种来源,以及朗读和自发说话等多种风格。数据集还覆盖了艺术、科学、体育等多种主题。最后,GigaSpeech提供了原始和规范化转录对,适合训练包含后处理(标点符号、大小写/日期/时间规范化等)的端到端系统。
使用方法
GigaSpeech数据集的使用方法首先涉及从GigaSpeech.json元数据文件中提取相关信息,例如音频文件列表、下载原始音频文件的URL或路径以及可训练的音频片段及其相应的转录文本。用户可以根据需要选择不同大小的训练子集,例如XS、S、M、L和XL。对于评估,GigaSpeech提供了开发集和测试集,分别包含12.5小时和40.3小时的音频。用户可以使用提供的基准系统,包括Athena、ESPnet、Kaldi和Pika,来测试和评估他们的语音识别系统。
背景与挑战
背景概述
随着神经网络模型的快速发展,自动语音识别(ASR)在过去十年中取得了巨大的进步。各种系统架构,从混合式到端到端,被提出,并且在标准基准上的最先进结果正在频繁更新。然而,主流的语音识别语料库在几十年中并没有发生太大的变化。以英语语音识别任务为例,华尔街日报语料库,由80小时的叙述新闻文章组成,已经有近20年的历史,在它的eval92基准上达到了2.32%的词错误率(WER)。Switchboard和Fisher语料库,由262小时和1,698小时的电话对话语音组成,也有大约20年的历史,在Hub5'00基准的Switchboard部分达到了5.5%的WER。即使是LibriSpeech,语音识别任务中最受欢迎的语料库之一,也已经超过5年的历史,在它的test clean基准上达到了1.9%的WER。它由1,000小时的英语阅读语音组成。由于语音识别技术的快速发展,这些数据集上的ASR性能似乎已经饱和,使得追踪新技术带来的进一步改进变得困难。为了解决这些问题,研究人员发布了名为GigaSpeech的语料库,这是一个不断发展的多领域ASR语料库,包含10,000小时的转录音频。GigaSpeech语料库的特点是可扩展性、大规模、多源、多风格、多主题和原始/规范化转录对。GigaSpeech语料库的发布为语音识别领域的研究人员提供了新的数据资源,有助于推动语音识别技术的进一步发展。
当前挑战
尽管GigaSpeech语料库提供了丰富的语音数据,但在实际应用中仍然面临一些挑战。首先,由于数据量庞大,如何有效地管理和使用这些数据是一个挑战。其次,由于GigaSpeech语料库包含了多种不同类型的语音,如何准确地识别和处理这些语音也是一个挑战。此外,由于GigaSpeech语料库是一个不断发展的语料库,如何及时更新和维护这些数据也是一个挑战。为了解决这些挑战,研究人员需要开发更有效的数据管理工具,提高语音识别系统的准确性和鲁棒性,以及建立有效的数据更新和维护机制。
常用场景
经典使用场景
GigaSpeech数据集作为一项规模庞大、多领域的英语语音识别语料库,主要适用于监督训练。它提供了五个不同大小的子集,分别为10小时、250小时、1000小时、2500小时和10000小时,满足了不同规模模型的训练需求。该数据集涵盖了从有声读物、播客到YouTube等多种来源,覆盖了阅读和自发演讲风格,以及艺术、科学、体育等多种主题。GigaSpeech数据集在语音识别训练中发挥了重要作用,为研究者提供了丰富的语音数据和转录文本,有助于提升语音识别系统的性能。
实际应用
GigaSpeech数据集在实际应用场景中具有广泛的应用价值。它可以用于构建语音识别系统,为智能语音助手、语音转写、语音搜索等应用提供支持。此外,GigaSpeech数据集还可以用于语音合成、说话人识别、语音情感识别等任务,为语音技术的进一步发展提供数据基础。例如,在智能语音助手中,GigaSpeech数据集可以帮助训练更准确的语音识别模型,提高语音助手的理解和交互能力;在语音转写应用中,GigaSpeech数据集可以帮助提高转写的准确性和效率;在语音搜索应用中,GigaSpeech数据集可以帮助构建更强大的语音搜索系统,提高搜索结果的准确性和相关性。
衍生相关工作
GigaSpeech数据集的发布衍生了许多相关的经典工作。例如,研究者们基于GigaSpeech数据集提出了新的语音识别模型、算法和系统,并在多个语音识别任务中取得了优异的性能。此外,GigaSpeech数据集还激发了研究者们在语音技术领域的新探索,推动了语音合成、说话人识别、语音情感识别等任务的研究。例如,基于GigaSpeech数据集的语音合成研究可以提高语音合成系统的自然度和流畅度;基于GigaSpeech数据集的说话人识别研究可以提高说话人识别系统的准确性和鲁棒性;基于GigaSpeech数据集的语音情感识别研究可以更好地理解语音中的情感信息,为情感计算和人工智能等领域的发展提供支持。
以上内容由遇见数据集搜集并总结生成



