AS-70

Name: AS-70
Creator: 西北工业大学
Published: 2024-06-11 21:35:50
License: 暂无描述

arXiv2024-06-11 更新2024-06-21 收录

下载链接：

https://www.aishelltech.com/AISHELL_6A

下载链接

链接失效反馈

官方服务：

资源简介：

AS-70数据集是由西北工业大学等机构创建的首个公开的普通话口吃语音数据集，旨在支持自动语音识别（ASR）和口吃事件检测（SED）研究。该数据集包含70名成年口吃者的语音数据，总时长达48.8小时，涵盖对话和语音命令阅读两种任务，具有详尽的手动转录。创建过程中，参与者通过在线平台进行录音，并采用自愿口吃技巧以增加数据的真实性。AS-70数据集的应用领域主要集中在提升ASR模型对口吃语音的识别能力，以及开发更有效的口吃检测系统，以促进语音技术在特殊人群中的应用和包容性。

The AS-70 dataset is the first publicly available Mandarin stuttered speech dataset developed by Northwestern Polytechnical University and other institutions, designed to support research in Automatic Speech Recognition (ASR) and Stuttered Event Detection (SED). This dataset contains speech data from 70 adult people who stutter, with a total duration of 48.8 hours, covering two tasks: conversational speech and speech command reading, and is accompanied by comprehensive manual transcriptions. During the data collection process, participants recorded their speech via an online platform and adopted voluntary stuttering techniques to enhance the authenticity of the dataset. The primary application scenarios of the AS-70 dataset focus on improving the recognition performance of ASR models for stuttered speech, as well as developing more effective stuttered event detection systems, so as to promote the application and inclusivity of speech technologies for special populations.

提供机构：

西北工业大学

创建时间：

2024-06-11

搜集汇总

数据集介绍

构建方式

AS-70数据集的构建方式包括参与者招募、录音会话、标注过程和描述性分析。该数据集由70位成人中文口吃者参与录制，包括对话和语音命令阅读两种任务。对话部分通过在线访谈平台进行，以捕捉自然语言表达。语音命令阅读部分则要求参与者朗读一组特定的命令。标注过程由15位非口吃标注者和5位质量控制员进行，标注内容包括五种类型的口吃事件，如词/短语重复、阻塞、延长、声音重复和插入语。标注结果以逐字稿的形式呈现，并嵌入口吃标签。描述性分析表明，AS-70数据集在规模上超过了其他公开可用的口吃语音数据集，且在平均口吃率、事件类型分布等方面呈现出中文口吃的特点。

特点

AS-70数据集的特点在于其规模庞大，包含了48.8小时的语音数据，且涵盖了对话和语音命令阅读两种类型的语音。数据集以逐字稿的形式标注，并包含了五种类型的口吃事件标签。此外，AS-70数据集是第一个公开可用的中文口吃语音数据集，为研究中文口吃提供了重要的资源。数据集的标注质量经过严格的质量控制，确保了标注的准确性和一致性。最后，AS-70数据集的公开可用性使得研究人员可以方便地获取和使用该数据集，推动相关研究的发展。

使用方法

AS-70数据集的使用方法主要包括自动语音识别（ASR）和口吃事件检测（SED）两个方面。在ASR任务中，研究人员可以将数据集用于模型训练和微调，以提高模型对口吃语音的识别能力。实验结果表明，使用AS-70数据集进行微调的模型在CER（字符错误率）方面取得了显著的提升。在SED任务中，数据集可以用于训练和评估不同类型的SED模型，以实现对口吃事件的准确识别。实验结果表明，使用AS-70数据集训练的模型在F1分数方面取得了优异的表现。此外，AS-70数据集还可以用于研究中文口吃的特征和规律，为相关研究和应用提供数据支持。

背景与挑战

背景概述

AS-70数据集是一项开创性的工作，旨在填补普通话口吃语音数据集的空白。该数据集的创建旨在解决自动语音识别(ASR)模型在处理口吃语音时的性能下降问题。该数据集由StammerTalk、西北工业大学、AIShell Inc、AImpower、南开大学、WeNet开源社区、中国科学技术大学和杜克昆山大学的研究人员合作开发。AS-70数据集包含了会话和语音命令阅读语音，并提供了逐字的手动转录，使其适用于各种语音相关任务。该数据集的发布对于推动普通话口吃语音的研究具有重要意义，有助于开发更包容的语音识别模型，以满足口吃人群的交流需求。

当前挑战

尽管AS-70数据集的发布对于普通话口吃语音的研究具有重要意义，但仍面临一些挑战。首先，现有的ASR模型在处理口吃语音时存在性能下降的问题，这需要进一步研究和优化。其次，数据集的构建过程中，如何确保数据的质量和准确性是一个挑战。此外，口吃语音的复杂性和多样性也给模型的训练和识别带来了挑战。为了克服这些挑战，需要进一步研究口吃语音的特点，开发更有效的模型和算法，并收集更多高质量的口吃语音数据集。

常用场景

经典使用场景

在语音技术领域，AS-70数据集成为了首个公开的普通话口吃语音数据集，为自动语音识别（ASR）和口吃事件检测（SED）提供了宝贵的资源。该数据集涵盖了对话和语音命令朗读两种场景，并包含逐字手写转录，使其适用于多种语音相关任务。通过将AS-70数据集融入模型微调，如Whisper和Hubert等最先进的ASR模型，在处理口吃语音方面取得了显著提升，增强了它们在应对口吃语音时的包容性。

衍生相关工作

AS-70数据集的发布衍生了一系列相关研究工作。例如，研究者可以利用该数据集对现有的ASR和SED模型进行微调，以提高其在处理口吃语音时的性能。此外，AS-70数据集还可以用于开发新的语音识别和检测算法，以更好地满足口吃人群的需求。这些研究工作有望推动语音技术领域的发展，为构建更加智能、包容的语音交互系统提供有力支持。

数据集最近研究