The People’s Speech
收藏arXiv2021-11-18 更新2024-06-21 收录
下载链接:
https://github.com/mlcommons/peoples-speech
下载链接
链接失效反馈官方服务:
资源简介:
The People’s Speech是一个大规模、多样化的英语语音识别数据集,由哈佛大学等研究机构创建,包含30,000小时的语音数据,主要来源于互联网档案馆。数据集通过搜索互联网上具有适当许可的音频数据及其现有转录来收集,使用Apache 2.0许可发布其数据收集系统。该数据集旨在解决自动语音识别系统训练数据的质量和多样性问题,特别是在商业应用中,通过提供大量、多样化的语音数据来提高模型的准确性和泛化能力。
The People’s Speech is a large-scale, diverse English automatic speech recognition dataset created by research institutions including Harvard University. It contains 30,000 hours of speech data primarily sourced from the Internet Archive. The dataset is collected by searching for properly licensed audio data and their existing transcriptions on the Internet. Its data collection system is released under the Apache 2.0 license. This dataset aims to address the issues of quality and diversity in training data for automatic speech recognition systems, especially in commercial applications, by providing large volumes of diverse speech data to improve the accuracy and generalization ability of the models.
提供机构:
哈佛大学
创建时间:
2021-11-18
搜集汇总
数据集介绍

构建方式
The People’s Speech数据集通过从互联网上搜索具有适当许可的音频数据及其现有转录文本,构建了一个包含30,000小时监督学习对话英语语音识别数据集。数据集的构建方法包括使用强制对齐技术(forced alignment)将音频与转录文本对齐,并通过开源的Apache 2.0许可发布其数据收集系统。该数据集的构建过程利用了互联网档案馆(Internet Archive)中的丰富资源,确保了数据的多样性和合法性。
特点
The People’s Speech数据集的主要特点在于其大规模、多样性和商业可用性。该数据集涵盖了多种语音场景,包括电影、电视、新闻、音乐等,且包含自然背景噪音,使其更贴近实际应用环境。此外,数据集采用CC-BY和CC-BY-SA许可,允许学术和商业用途,确保了广泛的应用场景。
使用方法
The People’s Speech数据集适用于训练和评估自动语音识别(ASR)系统。用户可以通过下载数据集并使用其提供的强制对齐工具进行数据预处理,进而训练深度学习模型。数据集的多样性和大规模特性使其特别适合用于开发能够泛化到不同环境、不同说话者的语音识别系统。此外,数据集的开源工具和详细的文档支持用户进行定制化处理和扩展。
背景与挑战
背景概述
The People’s Speech数据集是由NVIDIA、Landing AI、Factored等机构的研究人员共同开发的一个大规模、多样化的英语语音识别数据集,创建于2021年。该数据集包含30,000小时的监督学习语音数据,涵盖了多种场景和背景噪音,旨在为学术和商业用途提供高质量的语音识别训练数据。数据集的核心研究问题是如何从互联网上收集并整理出大规模、多样化的语音数据,并确保其合法性和商业可用性。通过使用Creative Commons Attribution (CC-BY)和Creative Commons Attribution-ShareAlike (CC-BY-SA)许可,该数据集解决了语音识别领域中数据许可和商业使用限制的难题,推动了语音识别技术的发展。
当前挑战
The People’s Speech数据集在构建过程中面临了多个挑战。首先,数据集的多样性和大规模性要求研究人员从互联网上收集大量带有转录的音频数据,并确保这些数据的许可允许商业使用。其次,数据集的构建过程中需要处理多种语言和背景噪音,这增加了数据处理的复杂性。此外,数据集的强制对齐过程也面临技术挑战,如处理不准确的转录、长音频文件的分段以及确保对齐的准确性。最后,数据集的维护和更新也是一个持续的挑战,特别是在处理法律和伦理问题方面,如确保数据来源的合法性和处理潜在的版权纠纷。
常用场景
经典使用场景
The People’s Speech数据集最经典的使用场景之一是用于构建和训练自动语音识别(ASR)系统。由于该数据集包含了30,000小时的多样化英语语音数据,涵盖了从政府演讲、访谈、健康讲座到娱乐节目等多种场景,因此它非常适合用于训练能够适应不同环境、不同说话者的语音识别模型。通过使用该数据集,研究人员和开发者可以构建出具有高度泛化能力的ASR系统,能够在多种实际应用场景中表现出色。
实际应用
The People’s Speech数据集在实际应用中具有广泛的潜力,特别是在商业语音识别系统中。例如,它可以用于开发智能语音助手、语音转文字服务、语音翻译工具等。由于数据集包含了丰富的背景噪音和多样化的语音内容,训练出的模型能够在嘈杂的环境中保持较高的识别准确率,适用于会议记录、电话客服、语音搜索等多种商业场景。此外,该数据集的开放许可使得企业可以合法地使用这些数据进行商业开发,降低了技术门槛。
衍生相关工作
The People’s Speech数据集的发布激发了许多相关研究工作。例如,基于该数据集的语音识别模型在Librispeech测试集上取得了9.98%的词错误率,展示了其在提升语音识别性能方面的潜力。此外,该数据集的开放性和多样性也启发了其他研究者探索如何从互联网资源中构建更大规模、更多样化的语音数据集。例如,一些研究开始关注如何扩展到非英语语言的数据集构建,以及如何利用弱监督学习方法处理无标签的语音数据。这些衍生工作进一步推动了语音识别领域的技术进步。
以上内容由遇见数据集搜集并总结生成



