TAPS (Throat and Acoustic Paired Speech Dataset)

Name: TAPS (Throat and Acoustic Paired Speech Dataset)
Creator: 韩国浦项科技大学
Published: 2025-02-17 14:29:11
License: 暂无描述

arXiv2025-02-17 更新2025-02-19 收录

下载链接：

https://huggingface.co/datasets/TAPS

下载链接

链接失效反馈

官方服务：

资源简介：

TAPS数据集是由韩国浦项科技大学创建的一组喉部麦克风和声学麦克风配对语音的集合，旨在为深度学习基础的语音增强研究提供标准化数据集。该数据集包含60位韩国本地说话者使用喉部和声学麦克风同时录制的6000对语句。数据集分为训练集、验证集和测试集，分别包含4000、1000和1000对语句。TAPS数据集可用于提高语音质量和恢复语音内容，有助于喉部麦克风在极端噪声环境中的实际应用。

The TAPS dataset is a standardized collection of paired speech data from throat microphones and acoustic microphones, developed by Pohang University of Science and Technology (South Korea), with the aim of providing a standardized dataset for deep learning-based speech enhancement research. This dataset includes 6000 pairs of utterances simultaneously recorded by 60 local Korean speakers using both throat and acoustic microphones. The dataset is divided into training, validation, and test sets, which contain 4000, 1000, and 1000 pairs of utterances respectively. The TAPS dataset can be utilized to enhance speech quality and recover speech content, facilitating the practical application of throat microphones in extremely noisy environments.

提供机构：

韩国浦项科技大学

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

TAPS数据集的构建采用了同时记录喉麦克风和声学麦克风的语音数据，通过60位韩国本土发言者进行收集。数据集分为训练集、开发集和测试集，分别包含来自40位、10位和10位发言者的音频数据。数据收集过程中，喉麦克风被放置在喉结上方的颈部区域，以捕捉喉部的振动和声学麦克风放置在发言者前方30厘米处，以捕捉传统的声学信号。为了确保数据质量，使用了定制的硬件系统进行同步录音，并在后处理阶段对数据进行了同步和噪声消除。

使用方法

使用TAPS数据集，研究人员可以训练和评估基于喉麦克风的语音增强模型。数据集提供了三个分割，即训练集、开发集和测试集，分别用于模型的训练、参数调整和性能评估。此外，数据集还提供了基线性能指标，包括PESQ、STOI、CER等，以及不同校正方法的性能比较。研究人员可以根据这些指标来选择最佳的模型和校正方法，以提高语音增强的性能。

背景与挑战

背景概述

在嘈杂的环境中，如工厂、地铁和繁忙的街道，捕捉清晰的语音是一项挑战，因为背景噪声的干扰。喉部麦克风提供了一种解决方案，它们具有噪声抑制特性，能够在录音时减少噪声。然而，一个重要的限制仍然存在：由于声音波通过皮肤和组织，高频信息会衰减，从而降低语音清晰度。近年来，基于深度学习的方法在增强喉部麦克风录音方面显示出希望，但缺乏标准化的数据集限制了进一步的发展。我们引入了一个喉部和声学配对语音数据集（TAPS），这是一个使用喉部和声学麦克风从60名韩国本地说话者那里录制的配对话语的集合。为了展示TAPS的实用性，我们测试了三个基线深度学习模型，并确定映射方法在提高语音质量和恢复内容方面具有优越性。此外，我们提出了一种最佳方法来减轻喉部和声学麦克风之间的信号失配，确保模型性能。这些结果突出了TAPS作为标准化数据集的潜力，并推动基于喉部麦克风语音增强的研究。

当前挑战

TAPS数据集面临的挑战包括：1)解决领域问题的挑战，即在高噪声环境中捕捉清晰语音的挑战；2)构建过程中的挑战，如高频信息的衰减、喉部麦克风无法有效捕捉口腔内的特定音素、传感器放置不当导致的音质下降，以及缺乏标准化的喉部麦克风语音数据集用于训练和评估模型。此外，构建数据集时还需要确保信号同步，以及开发有效的方法来减轻喉部和声学麦克风之间的信号失配，以提升模型性能。

常用场景

经典使用场景

TAPS数据集在语音增强领域具有广泛的应用。该数据集由喉部和声学麦克风记录的配对语音组成，为研究人员提供了丰富的资源来开发深度学习模型，以改善喉部麦克风录音的质量。在噪声环境，如工厂、地铁和繁忙的街道中，捕捉清晰的语音是一个挑战。喉部麦克风通过其噪声抑制特性提供了一种解决方案，减少了录音时的噪声。然而，一个显著的限制仍然存在：由于声音波通过皮肤和组织，高频信息衰减，降低了语音清晰度。TAPS数据集为研究人员提供了一个标准化的数据集，用于训练和评估语音增强模型，从而提高了喉部麦克风录音的质量。

解决学术问题

TAPS数据集解决了喉部麦克风录音中高频信息衰减的问题。该数据集为研究人员提供了一个标准化的数据集，用于训练和评估语音增强模型，从而提高了喉部麦克风录音的质量。此外，TAPS数据集还提出了一个最佳方法来减轻喉部和声学麦克风之间的信号失配，确保了模型的性能。这些结果表明，TAPS数据集有望成为一个标准化的数据集，并推动基于喉部麦克风的语音增强研究。

实际应用

TAPS数据集在现实世界中具有广泛的应用。该数据集可用于开发深度学习模型，以改善喉部麦克风录音的质量，从而提高在噪声环境中的语音清晰度。此外，TAPS数据集还可用于开发可穿戴通信设备，如喉部麦克风，以提供更好的通信体验。

数据集最近研究