SEP-28k

arXiv2022-06-07 更新2024-06-21 收录

下载链接：

https://github.com/th-nuernberg/ml-stuttering-events-dataset-extended

下载链接

链接失效反馈

官方服务：

资源简介：

SEP-28k数据集是由纽伦堡工业大学创建的一个大型语音数据集，包含约28000个3秒长的语音片段，这些片段来自围绕口吃话题的385个播客节目，并标注了五种不同的口吃事件类型。数据集的创建过程涉及从播客中提取片段并进行手动标注。该数据集主要用于口吃检测系统的研究和开发，旨在解决口吃检测中的数据稀缺问题，并提高语音识别系统的包容性。

The SEP-28k dataset is a large-scale speech dataset created by Technische Universität Nürnberg. It contains approximately 28,000 3-second-long speech segments derived from 385 podcast episodes centered around the topic of stuttering, with annotations for five distinct types of stuttering events. The dataset creation process involves extracting segments from podcasts and performing manual annotation. This dataset is primarily used for the research and development of stuttering detection systems, aiming to address the data scarcity issue in stuttering detection and improve the inclusivity of speech recognition systems.

提供机构：

纽伦堡工业大学格奥尔格·西蒙·欧姆

创建时间：

2022-06-07

搜集汇总

数据集介绍

构建方式

SEP-28k数据集的构建过程涉及从公开播客中精选出包含口吃者对话的音频片段。首先，通过播客搜索引擎的元数据筛选出与口吃相关的节目，随后从385集播客中提取了28,177个3秒的音频片段。这些片段主要捕捉了停顿前后的语音活动，以确保包含更多的口吃事件。每个片段均由至少三名经过培训的注释者进行标注，标注内容包括五种口吃事件类型及其他非口吃相关标签。

特点

SEP-28k数据集的一个显著特点是其规模庞大，包含超过28,000个标注片段，涵盖了五种主要的口吃事件类型：阻塞、延长、声音重复、词语重复和插入语。此外，数据集还包含了非口吃相关的标签，如自然停顿和不可理解的语音，这为研究提供了更全面的语音分析视角。数据集的多样性和详尽的标注使其成为开发通用口吃检测系统的宝贵资源。

使用方法

SEP-28k数据集主要用于开发和评估自动口吃事件检测模型。研究者可以利用该数据集训练和测试各种声学模型，以提高对特定口吃事件的识别准确率。数据集被划分为训练集、验证集和测试集，便于进行模型训练和性能评估。此外，数据集的结构允许研究者探索不同的数据分割策略，以分析不同说话者或播客之间的差异。

背景与挑战

背景概述

SEP-28k数据集由Apple的研究团队于2021年推出，旨在解决口吃事件自动检测的问题。该数据集包含超过28,000个音频片段，标注了五种口吃事件类型：阻塞、延长、声音重复、词语重复和插入语。音频主要来源于公开播客，内容多为口吃者之间的对话。SEP-28k的推出填补了现有数据集在规模和标注质量上的不足，为口吃检测系统的开发提供了丰富的数据支持。该数据集不仅有助于临床评估，还为改进语音识别技术提供了重要参考，特别是在处理非典型语音模式时。

当前挑战

SEP-28k数据集面临的挑战主要体现在两个方面。首先，口吃事件的多样性和个体差异性使得自动检测变得复杂。不同个体在表达同一类型口吃事件时可能存在显著差异，且环境因素（如压力或对话对象）也会影响口吃的表现形式。其次，数据集的构建过程面临标注难度高的问题。由于口吃事件的模糊性，标注者需要区分自然重复与口吃相关的重复，且音频质量不佳时难以准确识别口吃类型。此外，数据集的多样性和规模虽然提升了模型的泛化能力，但也增加了模型训练的复杂性，特别是在处理长时口吃事件和低一致性标注时。

常用场景

经典使用场景

SEP-28k数据集在语音病理学和语音识别技术领域具有重要应用，特别是在自动检测口吃事件方面。该数据集通过提供大量标注的语音片段，支持研究人员开发和测试能够识别不同类型口吃事件的算法。这些算法可以用于临床评估，帮助语言病理学家跟踪患者的语言流畅性变化，或者改进语音识别系统，使其更好地服务于有非典型语音模式的人群。

衍生相关工作

SEP-28k数据集的发布推动了多个相关研究领域的发展。例如，基于该数据集的研究工作探索了使用不同的声学特征和模型架构来改进口吃事件的检测性能。此外，该数据集还激发了关于如何结合语言模型和声学模型来进一步提高检测精度的研究。这些衍生工作不仅扩展了口吃检测的技术边界，还为其他语音障碍的研究提供了宝贵的参考。

数据集最近研究