GPTInformal-Persian-Speech-Dataset

github2024-09-22 更新2024-09-23 收录

下载链接：

https://github.com/MahtaFetrat/GPTInformal-Persian-Speech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

GPTInformal Persian是一个免费许可的波斯语数据集，包含音频和文本对，设计用于语音合成和其他语音相关任务。该数据集由Mana-TTS项目收集、处理和注释。文本使用GPT4o生成，涵盖了政治和自然等多个主题，并以非正式波斯语风格生成。音频和文本文件经过强制对齐处理，形成较小的音频-文本对。

GPTInformal Persian is a freely licensed Persian dataset containing audio-text pairs, designed for speech synthesis and other speech-related tasks. This dataset was collected, processed, and annotated by the Mana-TTS project. The text was generated using GPT-4o, covering multiple topics such as politics and nature, and crafted in an informal Persian style. The audio and text files have undergone forced alignment to form compact audio-text pairs.

创建时间：

2024-09-22

原始信息汇总

GPTInformal-Persian-Speech-Dataset

概述

GPTInformal Persian 是一个免费许可的波斯语音频和文本对数据集，专为语音合成和其他语音相关任务设计。该数据集由 Mana-TTS 项目收集、处理和标注。

数据来源

文本使用 GPT4o 生成，涵盖政治、自然等多个主题。
文本以非正式波斯语形式生成，使用以下提示格式：

Please give me a very long text written in informal Persian. I want it to be mostly about [SUBJECT].
生成的文本在安静环境中录制，并通过 aeneas 进行强制对齐，形成音频-文本对。

下载

数据集可从 Hugging Face 下载。

数据列

每个 Parquet 文件包含以下列：

file name (string): 音频文件的唯一标识符。
transcript (string): 音频的地面真值转录。
duration (float64): 音频文件的时长（秒）。
subject (string): 用于生成原始文本文件的主题。
audio (sequence): 实际音频数据。
samplerate (float64): 音频的采样率。

引用

如在研究或项目中使用 GPTInformal-Persian，请引用以下论文： bash @article{fetrat2024manatts, title={ManaTTS Persian: a recipe for creating TTS datasets for lower resource languages}, author={Mahta Fetrat Qharabagh and Zahra Dehghanian and Hamid R. Rabiee}, journal={arXiv preprint arXiv:2409.07259}, year={2024}, }

许可

该数据集在 cc0-1.0 许可下可用。禁止用于恶意目的或不道德活动，包括恶意意图的语音克隆。

搜集汇总

数据集介绍

构建方式

GPTInformal-Persian-Speech-Dataset的构建过程始于使用GPT4o生成非正式波斯语文本。这些文本涵盖了广泛的主题，如政治和自然，并通过特定的提示格式生成。生成的文本随后在安静环境中被录制为音频文件。音频和文本文件通过aeneas工具进行强制对齐，从而生成更小的音频-文本对，这些对构成了数据集的核心内容。

特点

该数据集的主要特点在于其非正式波斯语的文本风格，这种风格在语音合成和其他语音相关任务中具有独特的应用价值。此外，数据集中的音频和文本对经过精确的对齐处理，确保了数据的高质量。数据集的结构包括音频文件的唯一标识符、转录文本、音频时长、原始文本的主题、实际音频数据以及音频的采样率，这些都为研究者提供了丰富的信息。

使用方法

使用GPTInformal-Persian-Speech-Dataset时，研究者可以直接从Hugging Face平台下载数据集。数据集以Parquet文件格式存储，包含多个关键列，如文件名、转录文本、音频时长、主题、音频数据和采样率。这些数据可以用于训练和评估语音合成模型，以及其他与波斯语语音处理相关的任务。在使用过程中，研究者应遵守数据集的许可证要求，确保不将数据用于恶意或不道德的活动。

背景与挑战

背景概述

GPTInformal-Persian-Speech-Dataset 是一个由 Mana-TTS 项目团队创建的自由许可的波斯语音频和文本对数据集，专为语音合成和其他语音相关任务设计。该数据集的创建始于2024年，由Mahta Fetrat Qharabagh、Zahra Dehghanian和Hamid R. Rabiee等研究人员主导。其核心研究问题在于为低资源语言创建高质量的语音合成数据集，以推动波斯语语音技术的发展。通过使用GPT4o生成涵盖政治、自然等多个主题的非正式波斯语文本，并进行音频录制和强制对齐处理，该数据集不仅丰富了波斯语语音数据的多样性，还为相关领域的研究提供了宝贵的资源。

当前挑战

GPTInformal-Persian-Speech-Dataset 在构建过程中面临多项挑战。首先，生成非正式波斯语文本的技术要求较高，需确保文本的自然性和多样性。其次，音频录制和强制对齐过程中，环境噪音和语音清晰度问题需得到有效控制。此外，数据集的标注和分割需精确，以确保每个音频片段与对应文本的准确匹配。最后，尽管数据集遵循cc0-1.0许可，但其使用仍需遵守伦理规范，避免用于恶意目的，如声音克隆等。这些挑战不仅影响了数据集的质量，也对其在实际应用中的效果提出了考验。

常用场景

经典使用场景

GPTInformal-Persian-Speech-Dataset 主要用于波斯语语音合成及相关语音任务。该数据集包含音频和文本对，经过精心处理和标注，适用于训练和评估语音合成模型。其独特之处在于文本采用非正式波斯语风格，涵盖广泛的主题，如政治和自然，为模型提供了丰富的语言表达环境。

解决学术问题

该数据集解决了低资源语言语音合成数据稀缺的问题，为波斯语语音合成研究提供了宝贵的资源。通过提供高质量的音频和文本对，它有助于提升语音合成模型的性能和自然度，推动了波斯语语音技术的发展，具有重要的学术价值和实际意义。

衍生相关工作

基于 GPTInformal-Persian-Speech-Dataset，研究人员开发了多种语音合成模型和相关工具。例如，Mana-TTS 项目利用该数据集创建了波斯语语音合成系统，显著提升了合成语音的自然度和流畅性。此外，该数据集还激发了其他低资源语言语音合成数据集的创建和研究，推动了语音技术在多语言环境中的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集