LJSpeech based voice dataset

github2024-06-30 更新2024-07-01 收录

下载链接：

https://github.com/thorstenMueller/Audio-to-Voice-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过处理输入的WAV音频文件，使用OpenAI的Whisper模型将语音转录为文本，并根据静默间隔将音频分割成单独的句子，最终生成符合LJSpeech格式的语音数据集。此数据集可用于创建语音克隆，如使用Piper或Coqui TTS工具。

This dataset is generated by processing input WAV audio files, using OpenAI's Whisper model to transcribe speech into text, and segmenting the audio into individual sentences based on silent intervals, ultimately producing a speech dataset compliant with the LJSpeech format. This dataset can be utilized for voice cloning, such as with tools like Piper or Coqui TTS.

创建时间：

2024-06-25

原始信息汇总

Audio-to-Voice-Dataset

概述

该数据集通过使用OpenAI的Whisper模型将现有的WAV音频数据转换为文本，并根据静音间隔将音频分割成单独的句子，创建一个LJ Speech格式的语音数据集，可用于语音克隆。所有处理均在本地进行，无需将音频数据发送到云端。

功能

使用OpenAI的Whisper模型将语音转录为文本。
根据较长的静音间隔将多个音频文件分割成句子。
将每个句子保存为单独的WAV文件。
生成一个元数据CSV文件，将每个句子映射到其对应的音频文件。

前提条件

确保已安装Python，并安装以下Python库：

openai-whisper
pydub
pandas

可以使用以下命令安装这些依赖项： bash pip install openai-whisper pydub pandas

使用方法

准备音频文件：将输入的WAV文件放置在一个目录中，并记下其路径。
更新脚本：修改脚本中的audio_path变量，指向输入的WAV文件。
根据个人录音调整min_silence_len和keep_silence的值（速度和句子间的间隔）。
运行脚本：执行脚本，它将处理音频文件，分割成句子，并将每个句子保存为单独的WAV文件在输出目录的音频目录中。同时，它会在输出目录中创建一个metadata.csv文件，包含句子及其对应的音频文件ID。

输出

音频文件：脚本将在输出目录的音频目录中为每个句子创建单独的WAV文件。
CSV文件：脚本将在输出目录中生成一个metadata.csv文件，包含转录的句子和对应的音频文件ID。

示例

运行脚本后，输出目录可能如下所示：

output/ ├── audio/ │ ├── LJ0001.wav │ ├── LJ0002.wav │ ├── LJ0003.wav │ └── ... └── metadata.csv

metadata.csv文件内容如下：

LJ0001|Hello, world. LJ0002|This is a test. LJ0003|How are you?

注意事项

Whisper模型的转录过程可能需要一些时间，尤其是对于较长的音频文件。
为了获得最佳结果，确保输入音频文件具有清晰的语音和最小的背景噪音。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于OpenAI的Whisper模型，通过处理输入的WAV音频文件，实现语音到文本的转录。具体而言，该过程首先利用Whisper模型将语音内容转录为文本，随后根据音频中的静默间隔将音频分割成独立的句子，并将每个句子保存为单独的WAV文件。此外，系统会生成一个元数据CSV文件，该文件映射每个句子与其对应的音频文件ID，从而形成一个符合LJ Speech格式的语音数据集。整个处理过程均在本地完成，确保用户数据的安全性。

使用方法

使用该数据集时，用户首先需准备一个包含WAV音频文件的目录，并确保安装了必要的Python库，如openai-whisper、pydub和pandas。接着，用户需修改脚本中的audio_path变量以指向输入的WAV文件，并根据个人录音调整min_silence_len和keep_silence参数。运行脚本后，系统将自动处理音频文件，生成独立的句子WAV文件和对应的元数据CSV文件。用户可利用这些文件进行进一步的语音克隆或其他语音处理任务。

背景与挑战

背景概述

LJSpeech based voice dataset 是由Thorsten Mueller在其YouTube频道‘Thorsten-Voice’上提出的一个创新项目。该数据集的核心研究问题是如何基于现有的WAV音频数据构建一个适用于语音克隆的语音数据集结构。通过使用OpenAI的Whisper模型进行语音转文本处理，并根据静音间隙将音频分割成单独的句子，该数据集能够生成符合LJ Speech格式的数据集。这一研究不仅解决了语音处理领域中语音克隆数据集构建的难题，还显著推动了语音技术的发展，特别是在本地化语音克隆工具如Piper和Coqui TTS的应用上。

当前挑战

尽管LJSpeech based voice dataset在语音克隆领域展现了巨大的潜力，但其构建过程中仍面临若干挑战。首先，Whisper模型的转录过程可能耗时较长，尤其是对于较长的音频文件。其次，确保输入音频文件的清晰度和最小化背景噪音对于转录准确性至关重要。此外，数据集的生成依赖于精确的静音检测和分割，这需要对参数如`min_silence_len`和`keep_silence`进行精细调整。最后，生成的数据集需要进一步验证和调整，以确保其适用于语音克隆任务。

常用场景

经典使用场景

LJSpeech based voice dataset 的经典使用场景主要集中在语音克隆领域。通过该数据集，研究者和开发者能够利用现有的音频数据，生成符合LJ Speech格式的语音数据集。这一过程包括使用OpenAI的Whisper模型将语音转录为文本，并根据静音间隔将音频分割成独立的句子，最终生成一个包含元数据的CSV文件。这种数据集格式为后续的语音克隆任务提供了标准化的输入，使得基于Piper或Coqui TTS等工具的语音克隆变得更加高效和便捷。

解决学术问题

LJSpeech based voice dataset 解决了语音处理领域中一个常见的学术问题，即如何从现有的音频数据中高效地生成适用于语音克隆的数据集。传统的语音数据集构建过程通常耗时且复杂，而该数据集通过自动化处理流程，显著减少了数据准备的时间和成本。此外，该数据集的本地化处理特性确保了数据隐私和安全，这对于涉及敏感语音数据的学术研究尤为重要。这一创新不仅提升了语音克隆技术的可操作性，也为相关领域的研究提供了新的工具和方法。

实际应用

在实际应用中，LJSpeech based voice dataset 被广泛用于语音合成和语音克隆项目。例如，在虚拟助手、语音导航系统和个性化语音交互应用中，开发者可以利用该数据集快速生成高质量的语音模型。此外，该数据集的本地化处理能力使其在需要高度隐私保护的场景中尤为适用，如医疗对话系统或个人隐私保护的语音应用。通过简化数据准备流程，该数据集极大地提升了语音技术在实际应用中的部署效率和用户体验。

数据集最近研究