Synthetic Speech Dataset

github2024-04-17 更新2024-05-31 收录

下载链接：

https://github.com/gongouveia/Whisper-Temple-Synthetic-ASR-Dataset-Generator

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过合成语音技术生成的，用于ASR/NLP项目，提供音频与文本的对照，支持在用户界面中编辑合成翻译，增强训练数据的质量。

This dataset is generated using speech synthesis technology, intended for ASR and NLP projects. It provides aligned audio-text pairs, supports editing synthesized translations via the user interface, and helps enhance the quality of training data.

创建时间：

2024-02-18

原始信息汇总

Synthetic Speech Dataset Generator (SpeechGen)

概述

SpeechGen 是一个合成语音数据集生成器，旨在为自动语音识别（ASR）和自然语言处理（NLP）项目提供高质量的训练数据。该应用允许用户捕获音频样本，并将其转录为文本，同时管理生成的数据集。

功能

音频捕获：用户可以自定义设置如采样率和持续时间来捕获音频样本。
转录：提供将捕获的音频转录为文本的选项。
音频元数据：允许向数据集添加元数据，如音频采样率和持续时间。
数据集管理：用户可以查看、删除和管理生成数据集中的条目。
导出：支持将数据集导出，用于进一步处理或上传至Hugging Face。

安装

克隆仓库： bash git clone https://github.com/gongouveia/Syntehtic-Speech-Dataset-Generator.git
安装依赖： bash conda env create -f req.yml
按照使用说明操作。

使用

启动应用并创建或继续一个项目。
配置音频捕获参数，如采样率和持续时间。
使用“捕获音频”开始新的音频录制。
使用提供的菜单选项查看和管理音频数据集。
编辑转录，增强训练数据集的质量。

配置

音频采样率：设置音频捕获的采样率（KHz）。
音频持续时间：定义音频样本的持续时间（毫秒）。
转录：选择是否转录捕获的音频（是/否）。
VAD：启用或禁用转录中的VAD（是/否）。

数据集管理

查看数据集：打开新窗口查看生成的数据集。
刷新数据集：刷新数据集，适用于更改metadata.csv后。
删除条目：从数据集中删除最后记录的条目。

导出数据集至Hugging Face

使用提供的命令行界面将最终数据集导出为Hugging Face音频数据集。

未来版本

添加更多数据集元数据，如说话者和文件类型信息。
导出为kaldi数据集格式。
添加数据集批量翻译的加载条。
新窗口用于使用新伪合成数据集训练whisper（按需提供）。

搜集汇总

数据集介绍

构建方式

Synthetic Speech Dataset的构建基于Whisper Turbo技术，专门用于生成音频与文本对。该数据集通过一个用户友好的界面，允许用户自定义音频参数，如采样率和持续时间，并进行音频捕获。捕获的音频随后被转录为文本，形成音频-文本对。此外，用户可以通过界面编辑合成翻译，进一步增强数据集的质量。整个过程在本地机器上运行，确保数据隐私和安全。

使用方法

使用Synthetic Speech Dataset时，用户首先需要通过命令行启动应用程序，并配置音频捕获参数。随后，用户可以开始音频录制，并选择是否进行实时转录。数据集管理功能允许用户查看、删除和管理数据集条目，确保数据集的准确性和完整性。最后，用户可以将数据集导出为Hugging Face格式，便于进一步处理和模型训练。

背景与挑战

背景概述

随着自动语音识别（ASR）和自然语言处理（NLP）领域的快速发展，开源项目的普及使得人机交互技术日益民主化。然而，高质量的ASR数据集的获取仍然是一个关键挑战。Synthetic Speech Dataset应运而生，旨在通过Whisper Temple平台生成合成语音数据集，创建音频与文本的配对数据。该数据集由主要研究人员gongouveia开发，利用PyQt5构建用户界面，支持本地运行，旨在为ASR和NLP模型提供更为丰富和多样化的训练数据。

当前挑战

Synthetic Speech Dataset在构建过程中面临多项挑战。首先，如何确保生成的音频与文本配对数据的准确性和多样性是一个关键问题。其次，数据集的元数据管理，如音频采样率、时长和说话者信息，需要进一步完善以提升数据集的质量。此外，当前版本在某些操作系统上存在界面主题兼容性问题，且对.mp3文件的支持尚不完善。未来，数据集的扩展性，如增加新的翻译引擎和导出为其他格式（如Kaldi），也是需要解决的技术难题。

常用场景

经典使用场景

Synthetic Speech Dataset在语音识别（ASR）和自然语言处理（NLP）领域中，主要用于生成高质量的语音与文本对数据集。通过该数据集，研究者和开发者能够创建包含音频样本及其对应文本转录的合成数据集，从而为训练和评估语音识别模型提供丰富的资源。其经典使用场景包括但不限于：构建大规模语音识别训练集、验证模型的泛化能力，以及在低资源语言环境中进行语音识别任务的预训练。

解决学术问题

该数据集解决了语音识别领域中数据稀缺和标注成本高昂的常见学术问题。通过合成语音数据，研究者能够在无需大量人工干预的情况下生成多样化的训练数据，从而提升模型的鲁棒性和泛化能力。此外，该数据集还为跨语言语音识别研究提供了可能性，尤其是在资源匮乏的语言环境中，其意义尤为显著。

实际应用

在实际应用中，Synthetic Speech Dataset广泛应用于语音助手、语音翻译、语音搜索等场景。通过使用该数据集训练的模型，能够显著提高语音识别系统的准确性和响应速度，从而提升用户体验。此外，该数据集还可用于开发针对特定语言或方言的语音识别系统，满足不同地区和用户群体的需求。

数据集最近研究