aishell

github2023-02-24 更新2024-05-31 收录

下载链接：

https://github.com/ASR-studio/LAS-ASR

下载链接

链接失效反馈

官方服务：

资源简介：

中文普通话数据集，用于训练语音识别模型，包含标注文本和.wav文件，分为dev、test和train三个部分。

A Mandarin Chinese dataset designed for training speech recognition models, comprising annotated text and .wav files, segmented into dev, test, and train sections.

创建时间：

2023-02-23

原始信息汇总

数据集概述

数据集名称

aishell

数据集结构

shell data_aishell ├── transcript # 存放标注文本：aishell_transcript_v0.8.txt └── wav # 存放.wav的文件 ├── dev ├── test └── train

数据预处理

基于语音标注数据生成词典，支持字符、词或子词单位。
使用脚本 generate_vocab_file_aishell.py 生成词典文件 aishell_vocab.txt。

模型训练

声学模型训练：基于语音标注数据训练。
语言模型训练：基于标注文本以自回归方式训练。

模型验证

使用配置文件 aishell_asr_example_lstm4atthead1_test.yaml 进行模型测试。

模型推断

使用脚本 inference.py 进行语音识别推断。

识别结果展示

提供音频文件的识别结果示例，包括最优路径和搜索路径。

数据集缺点

LAS模型精度可能不高于传统GMM-HMM模型，且不支持流式ASR。

搜集汇总

数据集介绍

构建方式

AISHELL数据集的构建基于中文普通话语音数据，涵盖了训练、开发和测试三个主要部分。数据集的语音文件以.wav格式存储，并配有相应的文本标注文件，标注文件包含了语音的转录文本。数据集的构建过程包括从原始语音数据中提取特征，并生成相应的词汇表文件，以便于后续的模型训练和测试。

使用方法

AISHELL数据集的使用方法包括数据预处理、模型训练和模型验证。首先，通过生成词汇表文件对数据进行预处理。随后，使用配置文件和数据集加载器进行声学模型和语言模型的训练。训练完成后，通过测试配置文件对模型进行验证和推断。整个过程支持自定义配置，以适应不同的研究需求和实验设置。

背景与挑战

背景概述

AISHELL数据集是一个专注于中文普通话语音识别的研究数据集，由北京希尔贝壳科技有限公司于2017年发布。该数据集包含了超过178小时的普通话语音数据，涵盖了多种语音场景和说话人，旨在为语音识别领域的研究提供高质量的训练和测试资源。AISHELL数据集的发布极大地推动了中文语音识别技术的发展，尤其是在端到端语音识别模型的训练与评估方面。该数据集不仅为学术界提供了标准化的基准，也为工业界的语音识别系统开发提供了重要的数据支持。

当前挑战

AISHELL数据集在解决中文普通话语音识别问题时面临的主要挑战包括：1) 语音信号的多样性和复杂性，尤其是在不同环境噪声和说话人变体下的识别精度问题；2) 数据标注的准确性和一致性，尤其是在大规模数据集中确保每个语音片段的标注质量。在构建过程中，研究人员面临的挑战包括：1) 数据采集的广泛性和代表性，确保数据集能够覆盖各种语音场景和说话人特征；2) 数据预处理和标注的自动化与人工审核的平衡，以提高数据集的可用性和可靠性。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

AISHELL数据集广泛应用于普通话语音识别领域，特别是在端到端模型的训练与测试中。通过其丰富的语音数据和精确的文本标注，研究者能够构建和优化诸如Listen-Attend-Spell（LAS）等先进的语音识别模型。该数据集的使用场景涵盖了从基础的声学模型训练到复杂的语言模型集成，为语音识别技术的进步提供了坚实的基础。

解决学术问题

AISHELL数据集解决了普通话语音识别中的多个关键学术问题，包括语音信号的准确转录、声学模型的优化以及语言模型的集成。通过提供高质量的语音和文本数据，研究者能够深入探讨如何提高语音识别的准确率和鲁棒性，特别是在处理复杂语音环境和多音字识别方面。该数据集的存在极大地推动了语音识别领域的研究进展，为相关技术的实际应用奠定了理论基础。

实际应用

在实际应用中，AISHELL数据集被广泛用于开发智能语音助手、语音翻译系统和语音控制设备等。其高质量的语音数据使得这些系统能够更准确地理解和响应用户的语音指令，从而提升用户体验。此外，该数据集还被用于语音识别技术的商业化应用，如智能客服和语音输入法，进一步推动了语音识别技术在日常生活和工作中的普及。

数据集最近研究