Speech Dataset

github2024-04-26 更新2024-05-31 收录

下载链接：

https://github.com/davidmartinrius/speech-dataset-generator

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练文本到语音或语音到文本模型，支持多语言，包含音频质量增强、沉默移除、音频分割、转录、性别识别等功能，并能自动为说话者命名。

This dataset is designed for training text-to-speech or speech-to-text models, supporting multiple languages. It includes functionalities such as audio quality enhancement, silence removal, audio segmentation, transcription, gender identification, and the automatic naming of speakers.

创建时间：

2024-02-23

原始信息汇总

数据集概述

数据集功能

数据集生成：支持多语言数据集的创建，包含Mean Opinion Score (MOS)评分。
静音移除：自动移除音频文件中的静音部分。
音质提升：根据需要提升音频质量。
音频分割：按指定的时间范围分割音频文件。
转录：将分割后的音频转录成文本。
性别识别：识别音频中每个说话者的性别。
Pyannote嵌入：使用Pyannote嵌入进行跨多个音频文件的说话者检测。
自动命名说话者：对检测到的多个说话者自动分配名称。
多说话者检测：在每个音频文件中检测多个说话者。
存储说话者嵌入：将说话者检测结果存储在Chroma数据库中。
语速和每分钟字数指标：计算每分钟的字数和音节数。
多输入源：支持从本地文件、YouTube、LibriVox和TED Talks等来源输入。

输出结构示例

主要数据文件内容示例

plaintext

text	audio_filename	speaker_id	gender	duration	language	words_per_minute	syllables_per_minute
Hello, how are you?	wavs/1272-128104-0000.wav	Speaker12	male	4.5	en	22.22	1.11
Hola, ¿cómo estás?	wavs/1272-128104-0001.wav	Speaker45	female	6.2	es	20.97	0.81
This is a test.	wavs/1272-128104-0002.wav	Speaker23	male	3.8	en	26.32	1.32
¡Adiós!	wavs/1272-128104-0003.wav	Speaker67	female	7.0	es	16.43	0.57
...	...	...	...	...	...	...	...
Goodbye!	wavs/1272-128104-0225.wav	Speaker78	male	5.1	en	1.41	1.18

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要通过自动化流程实现，涵盖了从音频文件的转录、质量增强到数据集生成的全过程。首先，系统支持多种语言的音频文件，并通过WhisperX模型进行转录，确保文本与音频的精确对应。其次，系统内置了静音移除、音频分割和质量提升功能，以确保音频数据的纯净度和可用性。此外，系统还利用Pyannote嵌入模型进行说话人识别，自动为每个说话人分配唯一标识，并将这些信息存储在Chroma数据库中，以便后续使用。

使用方法

该数据集的使用方法灵活多样，用户可以通过命令行工具进行操作，支持从本地文件、YouTube、LibriVox和TED Talks等多种来源获取音频数据。用户可以通过指定输入文件路径、输出目录、时间范围和音频增强器等参数，生成符合需求的语音数据集。此外，系统还支持多种音频增强器的组合使用，如DeepFilterNet和ResembleAI，以进一步提升音频质量。生成的数据集以CSV格式存储，包含文本、音频文件名、说话人ID、性别、时长、语言、每分钟单词数和每分钟音节数等详细信息，便于后续分析和模型训练。

背景与挑战

背景概述

语音数据集（Speech Dataset）由David Martin Rius开发，旨在为文本到语音（TTS）或语音到文本（STT）模型的训练提供高质量的多语言数据集。该数据集的创建涉及音频文件的转录、音频质量的增强以及数据集的生成。其核心功能包括多语言数据集的生成、静音移除、音频质量改进、音频分割、转录、性别识别等。该数据集的开发不仅解决了语音处理领域中数据多样性和质量的问题，还为多语言语音识别和生成模型的训练提供了重要资源。

当前挑战

语音数据集的构建面临多方面的挑战。首先，多语言数据集的生成需要处理不同语言的语音特性，确保转录的准确性和语言的多样性。其次，音频质量的改进和静音移除是提高数据集质量的关键步骤，但这些过程可能受到原始音频质量的限制。此外，性别识别和多说话人检测虽然提高了数据集的多样性，但也增加了处理的复杂性。最后，数据集的生成和处理需要高效的算法和计算资源，尤其是在处理大规模音频文件时，计算成本和时间消耗是一个重要的挑战。

常用场景

经典使用场景

Speech Dataset 数据集的经典使用场景主要集中在语音识别和语音合成模型的训练。该数据集通过提供高质量的音频文件及其对应的文本转录，支持多种语言的语音识别任务。此外，数据集还具备性别识别和多说话者检测功能，使其在多说话者场景下的语音识别任务中表现尤为出色。通过自动分割音频和去除静音，数据集能够生成适合训练的片段，极大地提升了模型的训练效率和准确性。

解决学术问题

Speech Dataset 数据集解决了语音识别领域中多语言、多说话者场景下的数据稀缺问题。传统的语音识别模型往往依赖于单一语言或单一说话者的数据，而该数据集通过提供多语言和多说话者的音频数据，填补了这一空白。此外，数据集的音频质量增强功能和静音去除技术，有效提升了语音识别模型的鲁棒性，特别是在噪声环境下的表现。这些特性使得该数据集在学术研究中具有重要的应用价值。

实际应用

Speech Dataset 数据集在实际应用中广泛用于语音助手、语音翻译、语音转文字等场景。通过提供高质量的多语言音频数据，该数据集能够帮助企业快速训练和优化语音识别模型，提升产品的用户体验。此外，数据集的多说话者检测和性别识别功能，使其在会议记录、语音监控等场景中具有广泛的应用前景。通过自动生成和增强音频数据，该数据集显著降低了语音技术应用的开发成本和时间。

数据集最近研究