CoSAm
收藏arXiv2024-07-19 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.14328v1
下载链接
链接失效反馈官方服务:
资源简介:
CoSAm是一个针对自闭症谱系障碍(ASD)儿童的代码转换(英语和印地语)语音语料库,由UPES、Ulster和IIIT-Delhi等机构创建。该数据集包含61个语音记录,来自30名ASD儿童和31名神经正常儿童,年龄介于3至13岁之间,总计159.75分钟的语音记录。数据集的创建过程包括收集语音记录、预处理和特征分析,主要关注MFCCs和广泛的统计属性。CoSAm数据集主要应用于ASD的早期检测和诊断,通过分析语音模式来提高识别的准确性和鲁棒性。
CoSAm is a code-switching (English and Hindi) speech corpus for children with Autism Spectrum Disorder (ASD), developed by institutions including UPES, Ulster, and IIIT-Delhi. This dataset contains 61 speech recordings collected from 30 children with ASD and 31 typically developing children aged between 3 and 13 years old, with a total duration of 159.75 minutes. The dataset creation process includes speech recording collection, preprocessing, and feature analysis, with main focuses on Mel-Frequency Cepstral Coefficients (MFCCs) and a broad set of statistical attributes. The CoSAm dataset is primarily utilized for the early detection and diagnosis of ASD, aiming to enhance the accuracy and robustness of ASD recognition by analyzing speech patterns.
提供机构:
UPES, Bidholi road, Dehradun, 248001, India; Ulster, Northland Road, Londonderry, BT1 6DN., United Kingdom; IIIT-Delhi, Okhla Road, 695571, Delhi, India
创建时间:
2024-07-19
搜集汇总
数据集介绍

构建方式
CoSAm数据集的构建采用了先进的语音处理技术,通过分析双语言(英语和印地语)的代码切换语音,成功地将声学、副语言学和语言信息进行整合。该数据集的构建方式包括收集来自患有自闭症谱系障碍(ASD)的儿童和匹配对照组的语音录音,并通过使用Transformer编码器等深度学习技术对声学、副语言学和语言信息进行特征提取和分析。
特点
CoSAm数据集的特点在于其独特的分层特征融合方法,该方法利用Transformer编码器成功地整合了声学、副语言学和语言信息。此外,该数据集还提供了丰富的统计属性,用于捕捉语音模式的变异性。CoSAm数据集包含了来自30名患有ASD的儿童和31名神经典型儿童的61个语音录音,总时长为159.75分钟。
使用方法
CoSAm数据集的使用方法包括使用机器学习和深度学习模型对声学、副语言学和语言信息进行分析,并利用分层特征融合方法对特征进行整合。此外,该数据集还提供了相应的语音转录,以便进一步的研究和应用。在使用CoSAm数据集时,建议采用5折交叉验证方法进行模型训练和测试,以确保模型的泛化能力。
背景与挑战
背景概述
自闭症谱系障碍(ASD)是一种复杂的神经发展性挑战,表现为社交互动、沟通和在不同情境下表现出的重复行为的困难。随着ASD发病率的上升,它已成为一个主要的公共卫生问题,并需要全面的研究项目来推进我们对这种疾病的理解及其早期检测方法。本研究介绍了一种新颖的层次特征融合方法,旨在通过分析双语言(英语和印地语)的代码切换语音来提高儿童ASD的早期检测。利用先进的音频处理技术,该研究使用Transformer编码器整合了声学、副语言和语言信息。这种创新的融合策略旨在提高分类的鲁棒性和准确性,这对于早期和精确的ASD识别至关重要。该方法包括从被诊断为ASD的儿童和匹配的控制组中收集代码切换语音语料库CoSAm。数据集包括来自30名被诊断为ASD的儿童和31名神经典型儿童的61个语音录音,年龄在3至13岁之间,总共159.75分钟的语音录音。特征分析侧重于MFCC和广泛的统计属性,以捕捉语音模式的变化性和复杂性。研究采用了多种经典机器学习模型,包括SVM、RF、KNN等,以及深度学习技术,如CNN、RNN和Transformer。研究强调了特征融合中模态顺序的重要性,当使用特定序列时,诊断能力得到增强。最佳模型性能是通过层次融合技术实现的,准确率为98.75%,首先结合声学和语言特征,然后以层次方式结合副语言特征。这些结果表明,先进的信号处理技术在早期检测神经状况中的潜力,并为双语言或多语言ASD个体的语音处理提供了宝贵的见解。
当前挑战
CoSAm数据集面临的主要挑战包括:1)所解决的领域问题,即通过分析代码切换语音来提高儿童ASD的早期检测。2)构建过程中所遇到的挑战,包括收集数据集时的伦理问题和挑战,如获得参与者的知情同意,确保数据匿名性和参与者福祉,以及处理ASD儿童的异常或不稳定行为。在数据收集过程中,研究人员需要应对ASD儿童的不寻常或不稳定行为,如情绪波动、大声喊叫或紧张,以确保语音样本的清晰度和准确性。此外,由于一些ASD儿童在录音期间会说出额外的单词,这增加了录音过程的复杂性。为了解决这个问题,研究人员使用了PRAAT工具手动删除了单词之间的额外单词和空隙,从而确保了录音语音样本的准确性。
常用场景
经典使用场景
CoSAm数据集主要用于自闭症谱系障碍(ASD)的早期检测研究,特别是在双语或多语言环境下。该数据集包含了61个语音录音,分别来自30名被诊断为ASD的儿童和31名神经典型儿童,年龄在3至13岁之间,总时长为159.75分钟。数据集的语音样本是在代码切换(英语和印地语)的情境下录制的,旨在研究自闭症儿童在多语言环境下的语言特征。CoSAm数据集为研究者提供了丰富的音频数据,用于提取和分析声学、语言和副语言特征,以改进对ASD的识别。研究者可以运用CoSAm数据集进行机器学习和深度学习模型的训练,从而提高ASD的检测准确性和鲁棒性。
解决学术问题
CoSAm数据集解决了ASD早期检测中存在的关键问题。传统的ASD检测方法往往依赖于单一的语言或声学特征,而CoSAm数据集整合了声学、语言和副语言特征,通过Transformer编码器进行多层次的特征融合。这种创新的方法不仅提高了检测的准确性,还展示了在特定序列下融合特征的重要性,从而为ASD的早期诊断提供了更全面和准确的信息。CoSAm数据集的引入为ASD的早期识别提供了新的视角,有助于开发及时有效的干预策略,从而对自闭症儿童及其家庭产生深远的影响。
衍生相关工作
CoSAm数据集的研究成果已经衍生出了一系列相关的工作。例如,基于CoSAm数据集的研究成果,研究者开发了CoSAm: Hierarchical Feature Fusion augmented Code-Switched ASD detection,这是一种新的方法,通过分析代码切换的语音(英语和印地语)来增强ASD的早期检测。此外,CoSAm数据集的研究成果还被用于开发智能语音分析工具,这些工具可以帮助教育者和家长更好地理解和支持自闭症儿童的语言发展。这些相关工作的开展将进一步推动ASD的早期检测和干预研究,为自闭症儿童及其家庭提供更多的支持和帮助。
以上内容由遇见数据集搜集并总结生成



