Kassel State of Fluency (KSoF)

Name: Kassel State of Fluency (KSoF)
Creator: 卡塞尔口吃疗法研究所
Published: 2022-06-16 19:29:06
License: 暂无描述

arXiv2022-06-16 更新2024-07-24 收录

下载链接：

korbinian@ieee.org

下载链接

链接失效反馈

官方服务：

资源简介：

Kassel State of Fluency (KSoF)数据集是由卡塞尔口吃疗法研究所创建的，专注于口吃治疗的数据集。该数据集包含5597个片段，涵盖了口吃患者在治疗过程中的语音记录，特别标记了六种典型的口吃症状，包括阻塞、延长、声音重复、词语重复、插话以及治疗特有的语音修改。这些音频数据是在治疗会话中录制的，旨在帮助口吃患者和言语病理学家跟踪流畅性水平，并可能通过早期检测流畅性下降来干预。KSoF数据集的应用领域主要集中在口吃治疗和研究，旨在通过自动评估帮助改善治疗效果，减少复发率，并提供数据驱动的治疗决策支持。

The Kassel State of Fluency (KSoF) dataset, developed by the Kassel Institute for Stuttering Therapy, is a specialized resource focused on stuttering treatment. It comprises 5,597 audio clips consisting of speech recordings from individuals who stutter during their clinical therapy sessions, with six hallmark stuttering symptoms explicitly annotated: blocks, prolongations, sound repetitions, word repetitions, interjections, and therapy-specific speech modifications. Recorded during therapy sessions, these audio data aim to assist both people who stutter and speech-language pathologists in tracking fluency levels, and facilitate early intervention by detecting declines in fluency. The KSoF dataset is primarily applied in stuttering treatment and research, with the objective of enhancing therapeutic outcomes, reducing relapse rates, and providing data-driven support for treatment decision-making through automated assessment.

提供机构：

卡塞尔口吃疗法研究所

创建时间：

2022-03-10

搜集汇总

数据集介绍

构建方式

在言语病理学领域，针对口吃治疗效果的客观评估长期面临数据稀缺的挑战。Kassel State of Fluency (KSoF) 数据集的构建旨在填补这一空白，其语料采集于卡塞尔口吃治疗研究所的实际治疗阶段。研究人员从37名口吃者的214段录音中，提取出总计5597个时长为3秒且具有1.5秒重叠的音频片段。这些录音涵盖了自发性言语、朗读及电话对话等多种沟通情境，确保了数据的生态效度。标注工作由未经专业训练的非专业人士完成，他们接受了简短培训并遵循详细的标注指南，对每个片段中的六类口吃相关事件及非口吃标签进行了独立标注，最终通过一致性会议提升了标注可靠性。

特点

该数据集的核心特征在于其独特的治疗中心视角，首次系统性地收录了经过流利度塑造疗法训练的口吃者语音，并专门标注了“言语修正”这一治疗相关事件。数据涵盖了阻塞、延长、声音重复、词语重复、插入语及无口吃现象等六类标签，提供了超过5500个标注片段。其标注体系与当前最大的公开口吃语音资源SEP-28k兼容，便于跨语言迁移学习研究。此外，数据集附带了丰富的元数据，包括说话者性别、治疗阶段、录音设备及任务类型，为深入的错误分析和多维度实验设计提供了支持。

使用方法

该数据集主要服务于口吃自动检测与治疗监测算法的开发与评估。研究者可利用其训练机器学习模型，以识别包括治疗性言语修正在内的各类口吃事件。为保障结果的泛化性并避免因说话者个体差异导致的偏差，建议采用基于说话者分离的五折交叉验证策略进行模型评估。数据集本身提供了便于快速比较的预设划分，但更严谨的研究应遵循说话者不相交的评估原则。基线实验表明，利用wav2vec 2.0等预训练模型提取的特征能取得较优性能，为后续研究提供了技术参照。数据集将根据请求向研究用途开放。

背景与挑战

背景概述

口吃作为一种复杂的言语障碍，长期困扰着全球约1%的人口，严重影响患者的沟通能力与生活质量。为应对这一挑战，德国卡塞尔口吃治疗研究所联合纽伦堡工业大学等机构，于2022年推出了卡塞尔流利度状态数据集，旨在填补治疗导向型口吃语音数据的空白。该数据集收录了37名接受过流利度塑造疗法的患者在治疗过程中产生的5500余条德语语音片段，并标注了包括语音修正技术在内的六类口吃相关事件。KSoF的建立不仅为口吃严重程度的客观评估提供了关键资源，更通过捕捉治疗后的语音修正特征，推动了针对个性化康复方案的自动化监测系统研究，在病理语音计算领域具有开创性意义。

当前挑战

在口吃自动检测领域，核心挑战在于如何精准识别高度异质化的口吃症状，并有效区分自然言语与治疗诱导的语音修正行为。KSoF数据集构建过程中，首先面临标注一致性的难题：口吃事件如阻塞、延长等具有主观判断差异，需通过多轮标注者培训与共识会议提升标注可靠性。其次，数据规模与多样性受限，37名患者的语音样本难以全面覆盖口吃的个体差异与情境变异性，制约了模型的泛化能力。此外，数据标注从精细的事件标注转向三秒片段标注，虽提升了效率，却损失了部分时序精度，对事件定位研究形成制约。这些挑战共同指向未来需在跨语言迁移学习、细粒度事件检测及大规模真实环境数据收集等方面深化探索。

常用场景

经典使用场景

在言语病理学领域，Kassel State of Fluency (KSoF) 数据集为研究口吃障碍的自动检测与评估提供了关键资源。该数据集收录了超过5500个德语口吃者语音片段，标注了包括阻塞、延长、声音重复、词语重复、插入语及特定于治疗的语音修改等六类口吃相关事件。其经典应用场景集中于开发机器学习模型，用于识别口吃症状及治疗中习得的语音修改技术，支持跨语言迁移学习，并与现有公共数据集如SEP-28k保持标签兼容性，从而推动口吃检测系统的标准化与性能提升。

解决学术问题

KSoF 数据集解决了口吃研究中的数据稀缺与标注一致性问题。传统口吃评估依赖主观性强的临床观察，缺乏客观量化手段，且现有数据集往往规模有限或未涵盖治疗后的语音修改特征。该数据集通过系统化标注和利用朴素听者进行高效注释，提高了标签的可靠性，并首次纳入治疗性语音修改样本，使研究者能够探索口吃治疗效果的自动监测。这为开发精准的口吃严重性评估工具、减少治疗复发率提供了数据基础，促进了言语障碍研究的实证化发展。

衍生相关工作

KSoF 数据集催生了多项经典研究工作，尤其是在跨语言迁移学习与多模态口吃检测方面。研究者利用其与SEP-28k等数据集的兼容性，开发了基于wav2vec 2.0和LSTM-注意力机制的模型，显著提升了口吃事件分类的准确性。这些工作进一步推动了端到端口吃检测系统的发展，如FluentNet等架构，并激发了针对特定口吃类型（如词语重复）的上下文感知算法探索。此外，数据集还促进了治疗成效评估工具的优化，为言语病理学的计算化研究开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集