VCTK-Token

Name: VCTK-Token
Creator: 浙江大学, 加州大学伯克利分校, 加州大学旧金山分校
Published: 2024-09-20 23:35:32
License: 暂无描述

arXiv2024-09-20 更新2024-09-26 收录

下载链接：

https://rorizzz.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

VCTK-Token数据集由加州大学伯克利分校和加州大学旧金山分校的研究团队创建，旨在用于语音不流畅性检测。该数据集包含58405条语音和对应的标注文本，涵盖了多种不流畅性类型，如重复、插入、删除等。数据集的创建过程包括文本模拟器和语音模拟器的使用，生成带有不流畅标记的语音样本。该数据集主要应用于对话系统中的意图理解、语音治疗和语音障碍筛查等领域，旨在提高对语音不流畅性的检测和分类能力。

The VCTK-Token dataset was developed by a research team from the University of California, Berkeley, and the University of California, San Francisco, and is intended for speech disfluency detection. This dataset contains 58,405 speech samples and their corresponding annotated texts, covering various types of speech disfluencies such as repetitions, insertions, deletions, and so on. The development process of the dataset involves the use of text simulators and speech simulators to generate speech samples with disfluency markers. It is mainly applied in fields such as intent understanding in dialogue systems, speech therapy, and speech disorder screening, aiming to improve the detection and classification capabilities of speech disfluencies.

提供机构：

浙江大学, 加州大学伯克利分校, 加州大学旧金山分校

创建时间：

2024-09-20

搜集汇总

数据集介绍

构建方式

VCTK-Token数据集的构建基于规则的语音和文本不流畅性模拟器。首先，通过文本模拟器在单词和音素级别注入不流畅性标记，生成带有注释的文本及其对应的IPA序列。随后，利用VITS语音合成器将这些IPA序列转换为不流畅的语音样本。这些（不流畅语音，单词/音素级别注释文本）对构成了训练数据，为后续的基于标记的不流畅性检测提供了基础。

特点

VCTK-Token数据集的显著特点在于其多层次的不流畅性标记和高质量的语音合成。数据集不仅包含了单词级别的不流畅性注释，还扩展到了音素级别，提供了更为精细的分析粒度。此外，通过VITS语音合成器生成的语音样本具有较高的自然度和可信度，确保了数据集在实际应用中的有效性。

使用方法

VCTK-Token数据集主要用于训练和评估基于标记的不流畅性检测模型。用户可以利用该数据集训练Whisper架构的序列到序列模型，该模型能够处理不流畅语音输入并生成包含不流畅性标记的文本输出。此外，数据集还支持时间感知和标记感知的评估指标，为模型的性能评估提供了全面的工具。

背景与挑战

背景概述

VCTK-Token数据集由浙江大学、加州大学伯克利分校和加州大学旧金山分校的研究团队共同开发，旨在解决语音流畅性检测中的核心问题。该数据集的创建源于对现有时间基准方法在处理语音不流畅性（如重复、阻塞、插入、替换和删除）时的局限性的认识。研究团队提出了一种基于标记的方法，将不流畅性问题重新定义为标记化的自动语音识别（ASR）问题，从而开发了VCTK-Token数据集。这一创新不仅为语音流畅性检测提供了新的视角，还为临床应用和对话系统中的意图理解提供了重要支持。

当前挑战

VCTK-Token数据集在构建过程中面临多项挑战。首先，如何准确地将语音中的不流畅性标记化，并确保标记序列能够保留类型和时间信息，是一个复杂的技术难题。其次，数据集的规模和注释的准确性直接影响到模型的训练效果，而现有数据集在这方面存在明显不足。此外，统一时间基准和标记基准的评估方法，以促进未来研究的发展，也是该数据集需要解决的重要问题。最后，如何在保护隐私的前提下，有效利用和共享数据，是该数据集在实际应用中必须面对的挑战。

常用场景

经典使用场景

VCTK-Token数据集在语音不流畅性检测领域中，被广泛应用于构建端到端的语音识别系统。通过将不流畅性问题视为基于标记的自动语音识别（ASR）问题，该数据集支持研究人员开发和评估能够识别如重复、阻塞、插入、替换和删除等不流畅现象的模型。这种基于标记的方法不仅简化了理解过程，还保留了类型和时间信息，从而为临床应用提供了更为精确的定位。

衍生相关工作

基于VCTK-Token数据集，研究者们开发了一系列相关工作，推动了语音不流畅性检测领域的发展。例如，YOLO-Stutter-LCS方法通过整合最长公共子序列（LCS）算法，提升了时间基方法的检测性能。此外，Whisper架构的引入，使得基于标记的检测方法在多个评估指标上表现优异。这些衍生工作不仅丰富了数据集的应用场景，还为未来的研究提供了新的方向和基准。

数据集最近研究