gst-dataset

github2024-06-20 更新2024-07-01 收录

下载链接：

https://github.com/hoveychen/gst-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

gst-dataset是一个用于GPT-SoVITS的数据准备集合，包含从公开来源（如YouTube）收集的单个说话者超过10分钟的口头演讲视频。该数据集经过去噪、语音质量增强、静音片段移除、自动语音识别（ASR）处理，并提取了SSL、Bert、Hubert等信息。

The gst-dataset is a data preparation collection designed for GPT-SoVITS. It includes spoken lecture videos of a single speaker with a duration of over 10 minutes, collected from public sources such as YouTube. This dataset has undergone multiple processing steps: denoising, speech quality enhancement, silence segment removal, and automatic speech recognition (ASR), with relevant features including SSL, Bert, and Hubert extracted.

创建时间：

2024-06-20

原始信息汇总

gst-dataset

数据集准备用于GPT-SoVITS。

数据收集

从公开来源（YouTube）收集所有口述视频。单个视频应包含单个说话者，且时长超过10分钟。

将YouTube链接（例如https://www.youtube.com/watch?v=xxxxxxxxxx）放入单独的txt文件中。每行一个视频链接。文件名应以"_signal.txt"为前缀。

bash ./download_signal.sh {my_dataset}

这将自动将所有文件下载到"input_{my_dataset}"目录中。

数据清洗和准备

一键脚本按顺序执行所有处理：

去除背景噪音/音乐。
使用demucs增强语音质量。
去除超过200毫秒的静音片段。
使用whisper从音频中识别文本（ASR）。识别过程将音频分割成句子片段。
过滤5-10秒的音频片段。（与原始GSV训练数据对齐）
根据GSV训练数据集结构提取SSL、Bert、Hubert信息。

bash python prepare_dataset.py --exp_name {my_dataset} --input_dir input_{my_dataset}

使用GSV stock webui进行训练

实验名称直接为{my_dataset}。

搜集汇总

数据集介绍

构建方式

在构建gst-dataset时，研究者们从公开的YouTube视频源中精心筛选出仅包含单一说话者且时长超过10分钟的口述视频。这些视频链接被逐一记录在以'_signal.txt'为前缀的文本文件中，并通过自动化脚本下载至指定目录。随后，通过一系列预处理步骤，包括去除背景噪音、提升语音质量、消除静音片段、进行自动语音识别（ASR）以及文本分割，最终筛选出时长在5至10秒之间的音频片段。此外，还提取了与GSV训练数据结构相匹配的SSL、Bert和Hubert信息，确保数据集的高质量和一致性。

特点

gst-dataset的显著特点在于其高度纯净和结构化的音频数据。通过严格的预处理流程，该数据集去除了背景噪音和音乐干扰，显著提升了语音质量。此外，数据集中的音频片段经过精确的时长筛选，确保与原始GSV训练数据的兼容性。同时，提取的SSL、Bert和Hubert信息为深度学习模型提供了丰富的特征表示，增强了模型的训练效果和泛化能力。

使用方法

使用gst-dataset时，用户首先需通过提供的脚本下载并预处理数据，确保数据集的纯净和结构化。随后，用户可以利用预处理后的数据进行模型训练，特别是针对语音合成和识别任务。通过与GSV训练数据结构的对齐，用户可以无缝集成gst-dataset到现有的训练流程中，提升模型的性能和准确性。此外，数据集中提取的丰富特征信息也为模型的进一步优化提供了有力支持。

背景与挑战

背景概述

gst-dataset是为GPT-SoVITS模型准备的数据集，专注于从公开的YouTube视频中收集单一说话者的长时间口语录音。该数据集的创建旨在支持语音合成技术的研究，特别是通过提供高质量的语音数据来提升模型的表现。主要研究人员或机构通过自动化脚本从YouTube下载视频，并进行一系列预处理步骤，包括去除背景噪音、增强语音质量、分割音频片段以及提取文本信息。这一过程不仅确保了数据的质量，还为后续的模型训练提供了结构化的数据支持。

当前挑战

gst-dataset在构建过程中面临多项挑战。首先，从YouTube等公开资源获取高质量的单一说话者音频数据是一个复杂的过程，需要确保音频的纯净性和说话者的单一性。其次，数据预处理步骤中的噪音去除和语音增强技术需要高度精确，以避免对原始语音信号的损害。此外，自动语音识别（ASR）和音频分割的准确性直接影响数据集的质量，而这一过程在处理不同口音和语速的音频时尤为困难。最后，数据集的结构化处理和信息提取需要与原始GSV训练数据保持一致，这对技术实现提出了严格的要求。

常用场景

经典使用场景

gst-dataset数据集主要用于语音合成领域，特别是GPT-SoVITS模型的训练。该数据集通过从公开的YouTube视频中收集单个说话者的长时间语音片段，经过一系列预处理步骤，包括去除背景噪音、提升语音质量、分割音频为句子片段以及提取SSL、Bert、Hubert等信息，最终形成高质量的语音数据集。这些数据被用于训练GPT-SoVITS模型，以生成自然流畅的语音合成效果。

解决学术问题

gst-dataset数据集解决了语音合成领域中高质量语音数据稀缺的问题。通过自动化处理和筛选，该数据集提供了大量纯净、高质量的语音片段，有助于提升语音合成模型的性能和自然度。此外，数据集中的文本识别和音频分割技术，也为语音识别和自然语言处理领域的研究提供了宝贵的资源，推动了相关技术的进步。

衍生相关工作

基于gst-dataset数据集，研究者们开发了多种语音合成和语音识别模型。例如，GPT-SoVITS模型通过该数据集的训练，显著提升了语音合成的自然度和流畅性。此外，数据集中的音频处理技术也被应用于其他语音相关的研究，如语音增强、语音分离等，推动了整个语音处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集