five

THCHS-30

收藏
arXiv2015-12-10 更新2024-06-21 收录
下载链接:
http://data.cslt.org/thchs30/README.html
下载链接
链接失效反馈
官方服务:
资源简介:
THCHS-30是由清华大学信息技术研究院语音与语言技术研究中心发布的免费中文语音数据库,旨在支持语音识别研究。该数据集包含超过30小时的普通话语音信号,由50名参与者录制,采样率为16,000 Hz,样本大小为16位。数据集内容丰富,包括1000个从新闻中选取的句子,旨在增强863数据库的语音覆盖。此外,数据集还提供了包括词汇、语言模型和训练配方在内的全套资源,支持构建大型词汇连续中文语音识别系统。THCHS-30的应用领域广泛,主要用于解决中文语音识别中的数据获取难题,尤其适合初入此领域的年轻研究者。

THCHS-30 is a free Mandarin Chinese speech database released by the Center for Speech and Language Technology, Research Institute of Information Technology, Tsinghua University, aimed at supporting speech recognition research. This dataset contains over 30 hours of Mandarin speech signals recorded by 50 participants, with a sampling rate of 16,000 Hz and a 16-bit sample depth. It features rich content, including 1,000 sentences selected from news sources, with the purpose of enhancing the speech coverage of the 863 Database. In addition, the dataset provides a complete set of resources including lexicons, language models, and training recipes, which supports the development of large-vocabulary continuous Mandarin speech recognition systems. THCHS-30 has a wide range of application scenarios, mainly used to address the data acquisition challenges in Chinese speech recognition, and is particularly suitable for young researchers new to this field.
提供机构:
清华大学信息技术研究院语音与语言技术研究中心
创建时间:
2015-12-07
搜集汇总
数据集介绍
main_image_url
构建方式
THCHS-30数据集是由清华大学语音和语言技术中心发布的,包含35小时的普通话语音信号,由50位参与者录制于安静的环境中。该数据集的设计目标是补充863数据库,以最大限度地提高电话号码覆盖率。数据集分为训练集和测试集,其中训练集包含30位发言者的10893条语句,测试集包含10位发言者的2496条语句。为了帮助构建实用的中文语音识别系统,还提供了词汇表、语言模型、训练配方和一些有用的工具。
特点
THCHS-30数据集的特点在于:提供了充足的语音信号,覆盖了丰富的音素,适合构建全功能的中文语音识别系统;同时提供了额外的资源,如词汇表、语言模型和训练脚本,大大降低了新研究人员构建语音识别系统的门槛;而且还提供了在噪声环境下的语音数据,有助于研究者在实际应用中提高系统的鲁棒性。
使用方法
使用THCHS-30数据集的方法包括:首先,研究者可以从官方网站下载数据集和额外资源;其次,利用提供的数据和资源,通过Kaldi工具包等工具训练基于深度神经网络的语音识别模型;最后,可以在公开的挑战平台上测试和比较模型的性能。
背景与挑战
背景概述
THCHS-30,全称为'Tsinghua Chinese 30 hour database',是由清华大学言语与语言技术中心发布的一个免费的中文语音数据库。该数据库由第一作者在2000-2001年期间录制,包含了50位参与者录制的超过30小时的语音信号。这些语音信号是在安静的办公室环境下使用单个碳麦克风录制的,参与者主要是年轻的同事和学生,都能流利地说标准普通话。THCHS-30的设计目标是补充863数据库,以最大程度地提高电话号码覆盖率。该数据库的发布旨在支持‘免费数据’运动,使新的研究人员能够获得足够的数据来启动他们的职业生涯,并对相关领域产生了重要影响。
当前挑战
THCHS-30在构建过程中遇到的挑战主要包括:1) 所解决的领域问题是中文语音识别,尤其是在噪声环境下的识别准确性;2) 构建过程中遇到的挑战包括数据的收集、标注以及保证数据的多样性和质量。为了保证THCHS-30的可用性,研究人员提供了完整的资源,包括词汇表、语言模型和训练配方,以及一些有用的工具。此外,还提供了在噪声条件下的数据版本,以应对实际应用中的噪声挑战。
常用场景
经典使用场景
THCHS-30数据集被广泛应用于构建完整的中文语音识别系统,其提供了超过30小时的语音信号,以及词汇表、语言模型和训练脚本等附加资源,使得新研究者能够使用这些资源来建立基本的中文连续语音识别系统。
实际应用
在实际应用中,THCHS-30数据集可用于训练语音识别模型,以提高语音识别的准确度,尤其是在噪声环境下的识别性能,对于移动设备上的语音搜索等应用具有重要意义。
衍生相关工作
基于THCHS-30数据集,研究者们衍生出了一系列相关工作,如利用该数据集进行深度神经网络的特征学习、噪声训练等,进一步推动了语音识别技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作