GPTInformal-Persian-Speech-Dataset
收藏github2024-09-22 更新2024-09-23 收录
下载链接:
https://github.com/MahtaFetrat/GPTInformal-Persian-Speech-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
GPTInformal Persian是一个免费许可的波斯语数据集,包含音频和文本对,设计用于语音合成和其他语音相关任务。该数据集由Mana-TTS项目收集、处理和注释。文本使用GPT4o生成,涵盖了政治和自然等多个主题,并以非正式波斯语风格生成。音频和文本文件经过强制对齐处理,形成较小的音频-文本对。
GPTInformal Persian is a freely licensed Persian dataset containing audio-text pairs, designed for speech synthesis and other speech-related tasks. This dataset was collected, processed, and annotated by the Mana-TTS project. The text was generated using GPT-4o, covering multiple topics such as politics and nature, and crafted in an informal Persian style. The audio and text files have undergone forced alignment to form compact audio-text pairs.
创建时间:
2024-09-22
原始信息汇总
GPTInformal-Persian-Speech-Dataset
概述
GPTInformal Persian 是一个免费许可的波斯语音频和文本对数据集,专为语音合成和其他语音相关任务设计。该数据集由 Mana-TTS 项目收集、处理和标注。
数据来源
- 文本使用 GPT4o 生成,涵盖政治、自然等多个主题。
- 文本以非正式波斯语形式生成,使用以下提示格式:
Please give me a very long text written in informal Persian. I want it to be mostly about [SUBJECT].
- 生成的文本在安静环境中录制,并通过 aeneas 进行强制对齐,形成音频-文本对。
下载
数据集可从 Hugging Face 下载。
数据列
每个 Parquet 文件包含以下列:
- file name (
string): 音频文件的唯一标识符。 - transcript (
string): 音频的地面真值转录。 - duration (
float64): 音频文件的时长(秒)。 - subject (
string): 用于生成原始文本文件的主题。 - audio (
sequence): 实际音频数据。 - samplerate (
float64): 音频的采样率。
引用
如在研究或项目中使用 GPTInformal-Persian,请引用以下论文: bash @article{fetrat2024manatts, title={ManaTTS Persian: a recipe for creating TTS datasets for lower resource languages}, author={Mahta Fetrat Qharabagh and Zahra Dehghanian and Hamid R. Rabiee}, journal={arXiv preprint arXiv:2409.07259}, year={2024}, }
许可
该数据集在 cc0-1.0 许可下可用。禁止用于恶意目的或不道德活动,包括恶意意图的语音克隆。
搜集汇总
数据集介绍

构建方式
GPTInformal-Persian-Speech-Dataset的构建过程始于使用GPT4o生成非正式波斯语文本。这些文本涵盖了广泛的主题,如政治和自然,并通过特定的提示格式生成。生成的文本随后在安静环境中被录制为音频文件。音频和文本文件通过aeneas工具进行强制对齐,从而生成更小的音频-文本对,这些对构成了数据集的核心内容。
特点
该数据集的主要特点在于其非正式波斯语的文本风格,这种风格在语音合成和其他语音相关任务中具有独特的应用价值。此外,数据集中的音频和文本对经过精确的对齐处理,确保了数据的高质量。数据集的结构包括音频文件的唯一标识符、转录文本、音频时长、原始文本的主题、实际音频数据以及音频的采样率,这些都为研究者提供了丰富的信息。
使用方法
使用GPTInformal-Persian-Speech-Dataset时,研究者可以直接从Hugging Face平台下载数据集。数据集以Parquet文件格式存储,包含多个关键列,如文件名、转录文本、音频时长、主题、音频数据和采样率。这些数据可以用于训练和评估语音合成模型,以及其他与波斯语语音处理相关的任务。在使用过程中,研究者应遵守数据集的许可证要求,确保不将数据用于恶意或不道德的活动。
背景与挑战
背景概述
GPTInformal-Persian-Speech-Dataset 是一个由 Mana-TTS 项目团队创建的自由许可的波斯语音频和文本对数据集,专为语音合成和其他语音相关任务设计。该数据集的创建始于2024年,由Mahta Fetrat Qharabagh、Zahra Dehghanian和Hamid R. Rabiee等研究人员主导。其核心研究问题在于为低资源语言创建高质量的语音合成数据集,以推动波斯语语音技术的发展。通过使用GPT4o生成涵盖政治、自然等多个主题的非正式波斯语文本,并进行音频录制和强制对齐处理,该数据集不仅丰富了波斯语语音数据的多样性,还为相关领域的研究提供了宝贵的资源。
当前挑战
GPTInformal-Persian-Speech-Dataset 在构建过程中面临多项挑战。首先,生成非正式波斯语文本的技术要求较高,需确保文本的自然性和多样性。其次,音频录制和强制对齐过程中,环境噪音和语音清晰度问题需得到有效控制。此外,数据集的标注和分割需精确,以确保每个音频片段与对应文本的准确匹配。最后,尽管数据集遵循cc0-1.0许可,但其使用仍需遵守伦理规范,避免用于恶意目的,如声音克隆等。这些挑战不仅影响了数据集的质量,也对其在实际应用中的效果提出了考验。
常用场景
经典使用场景
GPTInformal-Persian-Speech-Dataset 主要用于波斯语语音合成及相关语音任务。该数据集包含音频和文本对,经过精心处理和标注,适用于训练和评估语音合成模型。其独特之处在于文本采用非正式波斯语风格,涵盖广泛的主题,如政治和自然,为模型提供了丰富的语言表达环境。
解决学术问题
该数据集解决了低资源语言语音合成数据稀缺的问题,为波斯语语音合成研究提供了宝贵的资源。通过提供高质量的音频和文本对,它有助于提升语音合成模型的性能和自然度,推动了波斯语语音技术的发展,具有重要的学术价值和实际意义。
衍生相关工作
基于 GPTInformal-Persian-Speech-Dataset,研究人员开发了多种语音合成模型和相关工具。例如,Mana-TTS 项目利用该数据集创建了波斯语语音合成系统,显著提升了合成语音的自然度和流畅性。此外,该数据集还激发了其他低资源语言语音合成数据集的创建和研究,推动了语音技术在多语言环境中的应用和发展。
以上内容由遇见数据集搜集并总结生成



