EasyCall corpus

Name: EasyCall corpus
Creator: 意大利技术研究所
Published: 2021-04-06 22:32:47
License: 暂无描述

arXiv2021-04-06 更新2024-07-25 收录

下载链接：

http://neurolab.unife.it/easycallcorpus/

下载链接

链接失效反馈

官方服务：

资源简介：

EasyCall corpus是一个专为意大利语设计的语音命令数据集，包含21386个音频记录，来自24名健康和31名言语障碍（dysarthric）的说话者。该数据集旨在为开发针对言语障碍患者的自动语音识别（ASR）辅助技术提供资源。数据集通过调查确定了言语障碍个体在使用语音控制联系应用时可能使用的命令，并包括了一系列非命令词汇，以增强命令识别系统的鲁棒性。该数据集的应用领域主要是改善言语障碍患者与家人及护理人员的沟通能力，通过开发一种语音控制的联系应用，使患者能够更轻松、友好地进行通话。

The EasyCall corpus is a speech command dataset tailored specifically for the Italian language, comprising 21,386 audio recordings from 24 healthy speakers and 31 dysarthric speakers. This corpus aims to provide resources for developing automatic speech recognition (ASR) assistive technologies for patients with speech impairments. Through surveys, the dataset identifies common commands that individuals with speech impairments may use when operating voice-controlled communication applications, and incorporates a set of non-command vocabulary to enhance the robustness of command recognition systems. The primary application scenario of this dataset is to improve the communication abilities of patients with speech impairments when interacting with their family members and caregivers. By facilitating the development of a voice-controlled contact application, it enables these patients to make calls more easily and in a more user-friendly manner.

提供机构：

意大利技术研究所

创建时间：

2021-04-06

搜集汇总

数据集介绍

构建方式

在构建EasyCall语料库的过程中，研究团队首先通过调查问卷确定了构音障碍患者在实际使用语音控制联系人应用时可能采用的命令表达方式。基于调查结果，最终筛选出67个句子，包括37个与通话任务相关的命令及30个非命令词汇，以增强语音识别系统的鲁棒性。数据采集采用智能手机应用程序进行，参与者被要求朗读屏幕上显示的句子，录音以.wav格式保存，并分为多个会话以减轻患者疲劳。总计收集了来自24名健康说话者和31名构音障碍说话者的21386条录音，确保了数据在真实场景下的代表性。

使用方法

该数据集主要用于训练和评估针对构音障碍语音的自动语音识别系统，特别适用于开发语音控制联系人应用等辅助技术。研究人员可利用健康与构音障碍说话者的对比数据，探索模型在异常语音上的泛化能力。非命令样本的引入支持构建更稳健的语法模型，以减少误识别。此外，数据集还可用于预训练神经网络，以改善在有限构音障碍数据场景下的模型性能。通过公开提供，EasyCall语料库为学术界和工业界提供了宝贵的资源，推动构音障碍语音处理技术的进步。

背景与挑战

背景概述

随着自动语音识别技术的飞速发展，其在辅助残障人士沟通方面的潜力日益凸显。在此背景下，意大利技术研究院与费拉拉大学等机构于2021年联合发布了EasyCall语料库，旨在为构音障碍患者提供语音控制智能手机的专用数据集。该数据集聚焦于意大利语环境，收录了24名健康人士与31名构音障碍患者共计21386条语音指令，核心研究问题在于解决传统语音识别系统对构音障碍语音适应性不足的难题。通过引入治疗结果测量评估患者言语障碍程度，并依据实际需求调查筛选指令词汇，该语料库为开发定制化辅助技术奠定了数据基础，推动了无障碍通信领域的研究进展。

当前挑战

在语音识别领域，构音障碍语音的识别长期面临严峻挑战。传统系统难以适应患者因运动性言语障碍产生的音素扭曲、节奏异常及音量波动等变异特征，导致识别准确率显著下降。构建EasyCall语料库的过程中，研究人员需克服多重困难：患者因疲劳或低配合度导致大规模数据采集受限；需通过问卷调查精准筛选符合患者实际使用习惯的指令词汇；同时需平衡小词汇表设计以降低模型复杂度与覆盖实际应用场景的需求。此外，数据采集需兼顾不同障碍类型与严重程度，并采用智能手机录音以模拟真实使用环境，这些因素共同增加了数据集构建的复杂性与严谨性要求。

常用场景

经典使用场景

在语音识别技术领域，针对运动性言语障碍（如构音障碍）的研究常面临数据稀缺的挑战。EasyCall语料库作为意大利语构音障碍语音命令数据集，其经典使用场景集中于开发面向构音障碍患者的自动语音识别辅助系统。该数据集通过收录健康与构音障碍说话者的语音命令录音，为训练和评估小词汇量语音识别模型提供了丰富资源，特别适用于构建基于智能手机的语音控制联系人应用，以帮助患者完成拨打电话等日常通信任务。

解决学术问题

构音障碍语音的变异性高，传统自动语音识别系统在此类数据上表现不佳，这构成了学术研究中的关键难题。EasyCall语料库通过提供大规模、标注清晰的构音障碍语音数据，直接解决了模型训练中数据不足的问题，促进了针对非典型语音的鲁棒性识别算法的发展。其意义在于推动了包容性语音技术的进步，为改善言语障碍患者的生活质量提供了技术基础，并在语音病理学与计算语言学的交叉领域产生了深远影响。

实际应用

在实际应用层面，EasyCall语料库直接支持开发面向构音障碍患者的辅助通信工具。例如，基于该数据集训练的语音识别模型可集成到智能手机应用中，实现通过语音命令控制联系人列表、拨打电话及管理通信流程。这种应用不仅提升了患者的自主通信能力，还减轻了护理人员的负担，体现了技术在医疗康复与日常辅助中的实用价值，为构建无障碍数字环境提供了可行方案。

数据集最近研究