AISHELL-1
收藏arXiv2017-09-16 更新2024-06-21 收录
下载链接:
http://www.openslr.org/33/
下载链接
链接失效反馈官方服务:
资源简介:
AISHELL-1是由北京壳壳科技有限公司发布的开源普通话语音数据集,是目前最大的适合进行普通话语音识别研究和构建语音识别系统的数据集。该数据集包含400名说话者超过170小时的普通话语音数据,数据来源广泛,包括不同性别、年龄和地域的说话者。数据集创建过程中,采用了高保真麦克风和多种移动设备进行录音,确保了数据的质量。AISHELL-1广泛应用于智能语音识别领域,旨在解决普通话语音识别的准确性和效率问题。
AISHELL-1 is an open-source Mandarin speech dataset released by Beijing KeKe Technology Co., Ltd. It is currently the largest dataset tailored for Mandarin speech recognition research and speech recognition system development. This dataset includes over 170 hours of Mandarin speech data from 400 speakers, with diverse sources covering speakers of different genders, age groups and geographic regions. During its creation, high-fidelity microphones and various mobile devices were utilized for audio recording to guarantee data quality. AISHELL-1 has been widely adopted in the intelligent speech recognition domain, with the objective of addressing the accuracy and efficiency challenges in Mandarin speech recognition.
提供机构:
北京壳壳科技有限公司
创建时间:
2017-09-16
搜集汇总
数据集介绍

构建方式
AISHELL-1数据集的构建方式涉及了高保真度麦克风音频数据的采集,并重新采样至16kHz、16位WAV格式,这是商业产品的主流设置。数据集由400位参与者的语音组成,涵盖了从16岁到40岁以上的年龄范围,性别比例均衡,多数来自中国北方地区。录音环境包括高保真度麦克风、Android手机和iPhone,以确保数据的多样性和覆盖面。录音后,音频数据经过预处理,包括语音转录和词汇表的准备,以确保数据的质量和可用性。
特点
AISHELL-1数据集的特点在于其规模庞大,是目前为止最大的开源普通话语音识别数据集。它包含了400位说话者超过170小时的普通话语音数据,涵盖了5个常见应用领域:金融、科技、体育、娱乐和新闻。此外,数据集还包括了训练集、开发集和测试集,并且没有说话者的重叠,这有助于评估模型的泛化能力。数据集还提供了中文词汇表,涵盖了大部分常用汉字和字符的发音。
使用方法
使用AISHELL-1数据集的方法包括下载数据集、准备实验环境和运行Kaldi语音识别基准系统。数据集与一个“即插即用”的Kaldi食谱一起发布,该食谱旨在演示如何使用该数据集进行普通话语音识别研究。实验设置包括构建声学模型和语言模型,并使用字符错误率(CER)来评估模型性能。用户可以根据自己的需求调整实验设置,例如使用不同的声学特征或训练策略。
背景与挑战
背景概述
自动语音识别(ASR)作为一项活跃的研究课题,数十年来吸引了众多研究人员的关注。现代ASR系统大多依赖于强大的统计模型,如高斯混合模型(GMM)、隐马尔可夫模型(HMM)和深度神经网络(DNN)。这些模型通常需要大量高质量的数据进行训练。幸运的是,随着智能手机的广泛使用和各种智能设备的兴起,全球范围内每天都会产生真实用户数据,数据的收集变得更加容易。结合充足的真实数据和监督训练,统计方法在语音行业取得了巨大成功。然而,由于法律和商业原因,大多数公司不愿意与公众分享数据:大型工业数据集通常对学术界不可访问,导致研究与实践之间的脱节。为了解决这一问题,开源SLR项目成立,为英语ASR提供了诸如Ted-Lium和LibriSpeech等开放平台,供研究人员和工业开发者进行实验和比较系统性能。然而,对于中文ASR,唯一的开源语料库是清华大学发布的THCHS30,包含50位说话人和约30小时的普通话语音数据。总的来说,基于小数据集(如THCHS30)的普通话ASR系统预计性能不会很高。为了填补这一空白,北京贝壳壳公司发布了名为AISHELL-1的开源普通话语音语料库。据作者所知,AISHELL-1是目前最大的开源普通话ASR语料库,包含400位说话人和超过170小时的普通话语音数据。更重要的是,它公开发布并采用Apache 2.0许可证。该语料库涵盖了从智能家庭语音控制到科技、体育、娱乐和新闻等11个领域的常用应用,共有50万个常用句子。原始文本经过手动过滤,消除了涉及敏感政治问题、用户隐私、色情、暴力等不当内容。语料库中包含训练集、开发集和测试集,没有说话人重叠。AISHELL-1语料库的发布,为普通话ASR研究提供了一个可靠的数据基础,有望推动该领域的发展。
当前挑战
AISHELL-1语料库在解决领域问题方面面临着一些挑战。首先,构建大规模的中文语音语料库需要解决数据收集和标注的问题,这需要大量的人力物力投入。其次,为了保证语料库的质量,需要制定严格的数据清洗和标注规范,确保数据的准确性和一致性。此外,语料库的构建还需要考虑数据分布的平衡性,包括说话人的性别、年龄、口音和地域分布等,以避免模型在特定群体上的性能偏差。在构建过程中,AISHELL-1语料库也面临着一些挑战。例如,为了保证数据的质量,需要对音频录制设备、环境和过程进行严格控制,确保录音的清晰度和一致性。此外,语料库的构建还需要考虑数据的安全性和隐私保护问题,确保数据的使用不会侵犯用户的隐私权。为了解决这些挑战,AISHELL-1语料库采用了多种技术手段,包括高质量的音频录制设备、严格的数据清洗和标注规范、以及数据分布的平衡性控制等。同时,AISHELL-1语料库也采用了Apache 2.0许可证,确保数据的使用不会侵犯用户的隐私权。
常用场景
经典使用场景
AISHELL-1数据集主要应用于中文语音识别领域,它提供了大规模的中文语音数据,适用于语音识别研究以及构建中文语音识别系统。通过使用AISHELL-1数据集,研究者可以训练和评估语音识别模型,从而推动中文语音识别技术的发展。
实际应用
AISHELL-1数据集在实际应用中具有重要的价值。它可以为语音识别系统提供高质量的训练数据,从而提高系统的识别准确率和鲁棒性。此外,AISHELL-1数据集还可以用于构建语音交互系统,如智能语音助手、语音控制设备等。
衍生相关工作
AISHELL-1数据集的发布推动了中文语音识别领域的研究进展。基于AISHELL-1数据集,研究者可以进行各种语音识别相关的研究,如声学模型设计、语言模型训练、解码器优化等。此外,AISHELL-1数据集还可以用于构建其他语音处理任务的数据集,如语音合成、说话人识别等。
以上内容由遇见数据集搜集并总结生成



