IIITH-TISA
收藏arXiv2024-11-26 更新2024-11-28 收录
下载链接:
http://arxiv.org/abs/2411.17149v1
下载链接
链接失效反馈官方服务:
资源简介:
IIITH-TISA数据集是由国际信息技术学院 - 海得拉巴与印度口吃协会(TISA)合作创建的,是首个印度英语口吃语料库。该数据集包含10小时的口吃者语音数据,经过精心标注,涵盖五种口吃类型和无口吃段落,共计3251个音频片段。数据集的创建过程严格遵循SEP-28k协议,确保了数据的高质量和一致性。该数据集主要用于语音助手的改进和口吃早期检测,旨在解决语音助手过早中断口吃者语音的问题,并为儿童口吃的早期诊断提供支持。
The IIITH-TISA Dataset was co-developed by the International Institute of Information Technology, Hyderabad and the Indian Stuttering Association (TISA), and it is the first-ever Indian English stuttering corpus. This dataset contains 10 hours of speech data from individuals who stutter, with meticulously annotated content covering five types of stuttering and non-stuttering speech segments, totaling 3251 audio clips. The dataset was constructed in strict compliance with the SEP-28k protocol to ensure high data quality and consistency. It is primarily used for improving voice assistants and early stuttering detection, with the dual objectives of addressing the issue where voice assistants prematurely interrupt the speech of people who stutter, and providing support for the early diagnosis of stuttering in children.
提供机构:
国际信息技术学院 - 海得拉巴
创建时间:
2024-11-26
搜集汇总
数据集介绍

构建方式
IIITH-TISA数据集的构建过程极为严谨,首先从印度口吃协会(TISA)的TISA在线计划组(TOPG)2.0视频系列中筛选出符合条件的视频,确保背景噪音最小化且无代码切换现象。随后,这些视频被转换为音频文件并进行质量检查,最终采样至16kHz并转换为单声道格式。经过严格筛选,共获得30名口吃者(PWS)的10小时语音数据。使用Audacity软件进行标注,生成包含时间戳的标签文件,并按照SEP-28k协议标准化为3秒片段,确保自然语音段落的完整性。
特点
IIITH-TISA数据集的显著特点在于其细致的标注和多样化的口吃事件类型。数据集包含了五种口吃事件:填充停顿、延长、部分词重复、短语重复和单词重复,以及无口吃事件的片段。此外,数据集的构建严格遵循SEP-28k协议,确保了数据的高质量和一致性。通过结合Perceptually Enhanced Zero-Time Windowed Cepstral Coefficients (PE-ZTWCC)和Shifted Delta Cepstra (SDC)特征,该数据集在口吃分类任务中表现出色,平均F1得分达到85.01%。
使用方法
IIITH-TISA数据集适用于对口吃事件进行分类和分析的研究。研究者可以利用数据集中的音频片段和详细标注,结合PE-ZTWCC和SDC特征,训练和验证口吃分类模型。此外,数据集的构建方法和标注标准为后续研究提供了可靠的参考,有助于推动对口吃现象的深入理解和语音助手的改进设计。研究者可以通过请求访问该数据集,进一步探索和应用其在语音处理和病理语音分析领域的潜力。
背景与挑战
背景概述
IIITH-TISA数据集由印度国际信息技术学院(IIIT-Hyderabad)的LTRC实验室创建,旨在解决典型与非典型言语不流畅性分类的问题。该数据集首次聚焦于印度英语中的口吃现象,通过与印度口吃协会(TISA)的合作,收集并标注了来自口吃者的10小时语音数据。其核心研究问题在于区分典型与非典型言语不流畅性,这对于改善面向口吃者的语音助手以及早期儿童口吃检测具有重要意义。IIITH-TISA数据集的推出填补了印度英语口吃研究领域的空白,为相关领域的研究提供了宝贵的资源。
当前挑战
IIITH-TISA数据集面临的挑战主要集中在两个方面:一是领域问题的挑战,即如何准确区分典型与非典型言语不流畅性,这需要克服口吃者与非口吃者之间在语音特征上的细微差异;二是数据集构建过程中的挑战,包括数据收集的难度、标注过程的复杂性以及确保数据质量的一致性。此外,由于口吃现象的多样性和个体差异,如何构建一个具有代表性和广泛适用性的数据集也是一个重大挑战。
常用场景
经典使用场景
IIITH-TISA数据集在语音病理学领域中被广泛用于区分典型与非典型言语不流畅性的分类任务。通过结合感知增强的零时间窗口化倒谱系数(PE-ZTWCC)与移位增量倒谱(SDC),该数据集能够捕捉到局部和更广泛的时间上下文信息,从而提高分类器的性能。这一方法在浅层时间延迟神经网络(TDNN)中表现尤为突出,实现了对言语不流畅性事件的高精度识别。
衍生相关工作
基于IIITH-TISA数据集,研究者们开发了多种先进的特征提取和分类方法,如感知增强的零时间窗口化倒谱系数(PE-ZTWCC)与移位增量倒谱(SDC)的结合,以及浅层时间延迟神经网络(TDNN)的应用。这些工作不仅提升了言语不流畅性分类的准确性,还为其他语音病理学研究提供了新的思路和方法。此外,该数据集的成功应用也激发了更多关于印度英语口吃语料库的研究,推动了全球范围内对口吃问题的关注和研究。
数据集最近研究
最新研究方向
在语音病理学领域,IIITH-TISA数据集的最新研究方向主要集中在典型与非典型言语不流畅性的分类问题上。该研究通过引入印度英语口吃语料库IIITH-TISA,结合时间上下文特征表示,提出了一种新的感知增强零时间窗化倒谱系数(PE-ZTWCC)与移位增量倒谱(SDC)相结合的特征提取方法。这种方法不仅能够有效捕捉言语信号中的局部和广泛时间上下文信息,还显著提高了不流畅性分类的准确性。此外,研究还探讨了如何通过优化时间延迟神经网络(TDNN)的参数,进一步提升分类性能,特别是在处理小规模数据集时的表现。这些研究成果为语音助手的改进、早期口吃检测以及语言发展不流畅性的准确诊断提供了新的技术支持。
相关研究论文
- 1Typical vs. Atypical Disfluency Classification: Introducing the IIITH-TISA Corpus and Temporal Context-Based Feature Representations国际信息技术学院 - 海得拉巴 · 2024年
以上内容由遇见数据集搜集并总结生成



