CoSAm

Name: CoSAm
Creator: UPES, Bidholi road, Dehradun, 248001, India; Ulster, Northland Road, Londonderry, BT1 6DN., United Kingdom; IIIT-Delhi, Okhla Road, 695571, Delhi, India
Published: 2024-07-23 19:56:22
License: 暂无描述

arXiv2024-07-23 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.14328v2

下载链接

链接失效反馈

官方服务：

资源简介：

CoSAm数据集由印度德拉敦的UPES、英国伦敦德里的Ulster和印度德里的IIIT-Delhi联合创建，专注于自闭症谱系障碍（ASD）儿童的代码切换（英语和印地语）语音分析。该数据集包含61条语音记录，总计159.75分钟，来自30名ASD儿童和31名神经正常儿童。数据集的创建过程包括从ASD儿童和对照组中收集语音记录，并进行预处理和特征分析。CoSAm数据集主要应用于ASD的早期检测和诊断，通过分析语音特征来提高识别的准确性和鲁棒性。

The CoSAm dataset was jointly developed by UPES in Dehradun, India, Ulster in Derry, UK, and IIIT-Delhi in Delhi, India. It focuses on code-switching (English and Hindi) speech analysis for children with Autism Spectrum Disorder (ASD). This dataset comprises 61 speech recordings totaling 159.75 minutes, collected from 30 children with ASD and 31 neurotypical children. The development process of the CoSAm dataset includes collecting speech recordings from children with ASD and the control group, followed by preprocessing and feature analysis. The CoSAm dataset is primarily applied to the early detection and diagnosis of ASD, aiming to improve the accuracy and robustness of recognition via speech feature analysis.

提供机构：

UPES, Bidholi road, Dehradun, 248001, India; Ulster, Northland Road, Londonderry, BT1 6DN., United Kingdom; IIIT-Delhi, Okhla Road, 695571, Delhi, India

创建时间：

2024-07-19

搜集汇总

数据集介绍

构建方式

CoSAm数据集是通过收集患有自闭症谱系障碍（ASD）的儿童和对照组儿童（没有ASD）的语音录音构建而成的。数据集的收集包括了一个全面的调查，以识别为ASD儿童提供支持和教育的机构和照顾者。参与者包括30名被诊断为ASD的儿童和31名对照组儿童，年龄在3至13岁之间。录音内容是儿童对一系列问题的回答，这些问题用英语和印地语编写，并使用视觉提示来确保儿童对问题的熟悉。录音是在一个安静的环境中进行的，以减少背景噪音，并确保音频质量的一致性。收集到的语音数据随后通过XLSR-53、mBERT和TRILLsson模型进行了特征提取，以捕获声学、语言和副语言信息。

使用方法

CoSAm数据集可以用于研究ASD的早期检测，特别是针对双语或多语儿童的ASD。数据集可以用于训练和测试机器学习模型，以识别ASD的语音特征。此外，数据集的特征提取方法可以用于研究ASD儿童的语音模式，并为未来的研究提供有价值的见解。使用CoSAm数据集进行研究的步骤包括数据预处理、特征提取、模型训练和评估。数据预处理可能包括音频增强、去噪和标准化。特征提取可以使用XLSR-53、mBERT和TRILLsson模型进行，以捕获声学、语言和副语言信息。模型训练可以使用各种机器学习和深度学习模型，例如SVM、RF、KNN、RNN、CNN和Transformer。评估可以使用准确性、宏F1分数和其他性能指标进行。

背景与挑战

背景概述

自闭症谱系障碍（ASD）是一个复杂的神经发展挑战，涉及社会互动、沟通和在不同情况下表达重复行为的一系列困难。随着ASD发病率的上升，它已成为一个主要的公共卫生问题，这凸显了我们需要进行综合研究以推进我们对该疾病及其早期检测方法的理解。本研究引入了一种新颖的层次特征融合方法，旨在通过分析代码切换语音（英语和印地语）来增强儿童中ASD的早期检测。利用先进的音频处理技术，该研究使用Transformer编码器集成声学、副语言学和语言信息。这种创新的融合策略旨在提高分类的鲁棒性和准确性，这对于早期和精确的ASD识别至关重要。该研究涉及从被诊断为ASD的儿童和匹配的对照组收集代码切换语音语料库CoSAm。数据集包括来自30名被诊断为ASD的儿童（轻度至中度）和31名神经典型儿童的61个语音录音，年龄在3至13岁之间，总共有159.75分钟的语音录音。特征分析侧重于MFCCs和广泛的统计属性，以捕捉语音模式的可变性和复杂性。研究使用了各种经典机器学习模型，包括SVM、RF、KNN等，以及深度学习技术，如CNN、RNN和Transformer。研究强调了模态顺序在特征融合中的重要性，表明当使用特定序列时，诊断能力得到增强。最佳模型性能是通过层次融合技术实现的，准确率为98.75%，首先结合声学和语言特征，然后以层次方式添加副语言特征。这些结果表明，复杂的信号处理技术在神经状况的早期检测中具有潜力，并为双语或多语自闭症个体的语音处理提供了宝贵的见解。

当前挑战

CoSAm数据集面临的一个主要挑战是，自闭症儿童的典型或不可预测的行为使得数据收集过程变得复杂。在录音过程中，一些孩子可能会突然大喊大叫，而大多数孩子可能会非常紧张。保持孩子们的情绪稳定并在这种情况下捕捉到清晰的语音样本是一项艰巨的任务。此外，许多被选中的自闭症儿童有时会在录音过程中说出额外的单词，这增加了录音过程的复杂性。为了解决这个问题，研究团队使用了PRAAT工具来手动删除单词之间的额外单词和间隙，从而确保录音语音样本的准确性。另一个挑战是自闭症儿童在录音过程中的行为可能会变得敌对，这要求研究团队在录音过程中多次休息，并让孩子们参与一些愉快的活动。总的来说，CoSAm数据集为自闭症检测领域提供了一个新颖且有价值的数据资源，但也面临着数据收集和处理的挑战，需要进一步的研究和改进。

常用场景

经典使用场景

CoSAm数据集最经典的使用场景是利用其包含的双语(英语和印地语)儿童自闭症谱系障碍(ASD)语音数据，通过先进的音频处理技术，融合声学、副语言和语言信息，以增强对儿童ASD的早期检测。这种方法利用Transformer编码器成功整合了这些信息，提高了分类的准确性和鲁棒性，对于早期和精确的ASD识别具有重要意义。

解决学术问题

CoSAm数据集解决了自闭症谱系障碍(ASD)早期检测的学术研究问题。通过分析代码切换语音(英语和印地语)，该方法成功地整合了声学、副语言和语言信息，从而提高了分类的准确性和鲁棒性。这对于早期和精确的ASD识别具有重要意义，有助于制定及时有效的干预方法。

实际应用

CoSAm数据集的实际应用场景包括在双语或多语言环境中对自闭症谱系障碍(ASD)的早期检测。通过对儿童ASD的语音数据进行声学、副语言和语言信息的融合，该数据集可以提供有关ASD儿童语音模式的有价值见解，这对于未来研究具有重要意义。

数据集最近研究