five

GPTInformal-Persian-Speech-Dataset

收藏
github2024-09-22 更新2024-09-23 收录
下载链接:
https://github.com/MahtaFetrat/GPTInformal-Persian-Speech-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
GPTInformal Persian是一个免费许可的波斯语数据集,包含音频和文本对,设计用于语音合成和其他语音相关任务。该数据集由Mana-TTS项目收集、处理和注释。文本使用GPT4o生成,涵盖了政治和自然等多个主题,并以非正式波斯语风格生成。音频和文本文件经过强制对齐处理,形成较小的音频-文本对。

GPTInformal Persian is a freely licensed Persian dataset containing audio-text pairs, designed for speech synthesis and other speech-related tasks. This dataset was collected, processed, and annotated by the Mana-TTS project. The text was generated using GPT-4o, covering multiple topics such as politics and nature, and crafted in an informal Persian style. The audio and text files have undergone forced alignment to form compact audio-text pairs.
创建时间:
2024-09-22
原始信息汇总

GPTInformal-Persian-Speech-Dataset

概述

GPTInformal Persian 是一个免费许可的波斯语音频和文本对数据集,专为语音合成和其他语音相关任务设计。该数据集由 Mana-TTS 项目收集、处理和标注。

数据来源

  • 文本使用 GPT4o 生成,涵盖政治、自然等多个主题。
  • 文本以非正式波斯语形式生成,使用以下提示格式:

    Please give me a very long text written in informal Persian. I want it to be mostly about [SUBJECT].

  • 生成的文本在安静环境中录制,并通过 aeneas 进行强制对齐,形成音频-文本对。

下载

数据集可从 Hugging Face 下载。

数据列

每个 Parquet 文件包含以下列:

  • file name (string): 音频文件的唯一标识符。
  • transcript (string): 音频的地面真值转录。
  • duration (float64): 音频文件的时长(秒)。
  • subject (string): 用于生成原始文本文件的主题。
  • audio (sequence): 实际音频数据。
  • samplerate (float64): 音频的采样率。

引用

如在研究或项目中使用 GPTInformal-Persian,请引用以下论文: bash @article{fetrat2024manatts, title={ManaTTS Persian: a recipe for creating TTS datasets for lower resource languages}, author={Mahta Fetrat Qharabagh and Zahra Dehghanian and Hamid R. Rabiee}, journal={arXiv preprint arXiv:2409.07259}, year={2024}, }

许可

该数据集在 cc0-1.0 许可下可用。禁止用于恶意目的或不道德活动,包括恶意意图的语音克隆。

搜集汇总
数据集介绍
main_image_url
构建方式
GPTInformal-Persian-Speech-Dataset的构建过程始于使用GPT4o生成非正式波斯语文本。这些文本涵盖了广泛的主题,如政治和自然,并通过特定的提示格式生成。生成的文本随后在安静环境中被录制为音频文件。音频和文本文件通过aeneas工具进行强制对齐,从而生成更小的音频-文本对,这些对构成了数据集的核心内容。
特点
该数据集的主要特点在于其非正式波斯语的文本风格,这种风格在语音合成和其他语音相关任务中具有独特的应用价值。此外,数据集中的音频和文本对经过精确的对齐处理,确保了数据的高质量。数据集的结构包括音频文件的唯一标识符、转录文本、音频时长、原始文本的主题、实际音频数据以及音频的采样率,这些都为研究者提供了丰富的信息。
使用方法
使用GPTInformal-Persian-Speech-Dataset时,研究者可以直接从Hugging Face平台下载数据集。数据集以Parquet文件格式存储,包含多个关键列,如文件名、转录文本、音频时长、主题、音频数据和采样率。这些数据可以用于训练和评估语音合成模型,以及其他与波斯语语音处理相关的任务。在使用过程中,研究者应遵守数据集的许可证要求,确保不将数据用于恶意或不道德的活动。
背景与挑战
背景概述
GPTInformal-Persian-Speech-Dataset 是一个由 Mana-TTS 项目团队创建的自由许可的波斯语音频和文本对数据集,专为语音合成和其他语音相关任务设计。该数据集的创建始于2024年,由Mahta Fetrat Qharabagh、Zahra Dehghanian和Hamid R. Rabiee等研究人员主导。其核心研究问题在于为低资源语言创建高质量的语音合成数据集,以推动波斯语语音技术的发展。通过使用GPT4o生成涵盖政治、自然等多个主题的非正式波斯语文本,并进行音频录制和强制对齐处理,该数据集不仅丰富了波斯语语音数据的多样性,还为相关领域的研究提供了宝贵的资源。
当前挑战
GPTInformal-Persian-Speech-Dataset 在构建过程中面临多项挑战。首先,生成非正式波斯语文本的技术要求较高,需确保文本的自然性和多样性。其次,音频录制和强制对齐过程中,环境噪音和语音清晰度问题需得到有效控制。此外,数据集的标注和分割需精确,以确保每个音频片段与对应文本的准确匹配。最后,尽管数据集遵循cc0-1.0许可,但其使用仍需遵守伦理规范,避免用于恶意目的,如声音克隆等。这些挑战不仅影响了数据集的质量,也对其在实际应用中的效果提出了考验。
常用场景
经典使用场景
GPTInformal-Persian-Speech-Dataset 主要用于波斯语语音合成及相关语音任务。该数据集包含音频和文本对,经过精心处理和标注,适用于训练和评估语音合成模型。其独特之处在于文本采用非正式波斯语风格,涵盖广泛的主题,如政治和自然,为模型提供了丰富的语言表达环境。
解决学术问题
该数据集解决了低资源语言语音合成数据稀缺的问题,为波斯语语音合成研究提供了宝贵的资源。通过提供高质量的音频和文本对,它有助于提升语音合成模型的性能和自然度,推动了波斯语语音技术的发展,具有重要的学术价值和实际意义。
衍生相关工作
基于 GPTInformal-Persian-Speech-Dataset,研究人员开发了多种语音合成模型和相关工具。例如,Mana-TTS 项目利用该数据集创建了波斯语语音合成系统,显著提升了合成语音的自然度和流畅性。此外,该数据集还激发了其他低资源语言语音合成数据集的创建和研究,推动了语音技术在多语言环境中的应用和发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作