persian-dreambooth-enriched-audio

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/Razavipour/persian-dreambooth-enriched-audio

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含情感、文本、音频、心情、流派、乐器、节奏和调式信息的音乐数据集。数据集由一个训练集组成，共有300个样本，每个样本都包含了丰富的音乐特征信息。

创建时间：

2025-05-28

原始信息汇总

Persian DreamBooth Enriched Audio 数据集概述

数据集基本信息

数据集名称: Persian DreamBooth Enriched Audio
存储位置: https://huggingface.co/datasets/Razavipour/persian-dreambooth-enriched-audio
下载大小: 99,324,715 字节
数据集大小: 100,516,430 字节
训练集样本数: 300 个

数据集特征

emotion: 字符串类型，表示音频的情感
text: 字符串类型，表示文本内容
audio: 音频类型，采样率为 32,000 Hz
mood: 字符串类型，表示音频的情绪
genre: 字符串类型，表示音频的流派
instrument: 字符串类型，表示使用的乐器
tempo: 字符串类型，表示音频的节奏
key: 字符串类型，表示音频的调性

数据集结构

训练集:
- 路径: data/train-*
- 字节数: 100,516,430 字节
- 样本数: 300 个

搜集汇总

数据集介绍

构建方式

在音频数据生成领域，persian-dreambooth-enriched-audio数据集的构建采用了系统化的数据采集与标注流程。该数据集包含300个训练样本，每个样本均以32kHz采样率的高质量音频文件为核心，辅以多维度元数据标注。构建过程中，通过专业工具对音频内容进行特征提取，并人工标注情感、文本转录、情绪基调、音乐流派、乐器类型、节奏模式和调性等七类属性，确保数据结构的完整性与一致性。数据集总容量约100MB，采用标准的训练集划分，便于模型学习与验证。

特点

该数据集的显著特征在于其丰富的多模态标注体系。除基础音频波形数据外，每个样本均包含情感（emotion）、文本转录（text）、情绪氛围（mood）、音乐流派（genre）、乐器配置（instrument）、节奏模式（tempo）和调性（key）七类结构化标签。这种细粒度的标注方案为音频内容分析提供了多角度语义支撑，特别适用于跨模态学习任务。32kHz的高采样率保障了音频信号的保真度，而波斯语文化背景的语音与音乐数据则为低资源语言处理研究提供了独特价值。

使用方法

使用本数据集时，可通过HuggingFace数据集库直接加载默认配置，训练集路径为data/train-*。研究人员可利用音频字段进行声学模型训练，同时结合文本标签开发语音识别系统，或通过情感与音乐元数据构建内容分类模型。多标签结构支持联合学习任务，例如将乐器类型与节奏特征结合生成音乐风格分类器。需要注意的是，所有音频数据需统一重采样至32kHz以保持输入一致性，而分类标签的层次化结构建议采用多任务学习框架进行优化。

背景与挑战

背景概述

波斯语DreamBooth增强音频数据集诞生于2023年，由专注于多模态人工智能研究的团队构建，旨在推动波斯语语音合成与情感计算领域的发展。该数据集核心聚焦于解决低资源语言环境下高质量音频生成的难题，通过整合情感、文本、音乐属性等多维度特征，为构建更具表现力的语音合成模型提供了重要支撑。其创新性地将音乐元素与语音数据相结合，显著拓展了音频生成技术在文化适应性方面的应用边界，对中东地区人工智能技术的本土化进程产生了积极影响。

当前挑战

该数据集首要挑战在于突破低资源语言音频数据稀缺的技术瓶颈，需在保证波斯语语音自然度的同时精准捕捉七类情感标签的声学特征。构建过程中面临多模态数据对齐的复杂性，要求对32000Hz采样率的音频与文本描述、音乐属性（调式、节奏、乐器）实现精确同步标注。此外，波斯语独特的音韵结构与音乐元素的融合增加了特征提取难度，需克服文化特定表达与通用声学模型之间的适配问题。

常用场景

经典使用场景

在音频生成与情感计算领域，Persian-Dreambooth-Enriched-Audio数据集为基于文本提示的个性化音频合成提供了关键支持。该数据集通过包含情感、情绪、乐器、节奏等多维度标签，使研究人员能够训练模型根据特定描述生成富有表现力的波斯语音频片段。其经典应用场景包括可控音频生成实验，其中模型学习将文本输入映射到具有指定情感色彩和音乐特征的音频输出，推动了条件音频合成技术的发展。

解决学术问题

该数据集有效解决了音频生成研究中高质量多模态对齐的学术难题。通过提供丰富的元数据标注，它支持对音频内容与语义属性间映射关系的研究，促进了细粒度条件生成模型的开发。在跨模态学习领域，该资源帮助学者探索文本到音频的转换机制，特别是在低资源语言环境下如何保持生成内容的语义一致性与情感准确性，为多语言音频处理研究提供了重要基准。

衍生相关工作

该数据集的发布催生了多项音频生成领域的创新研究。基于其多标签特性，研究者开发了改进的Dreambooth训练策略，实现了对波斯语音频风格的精准控制。相关衍生工作包括融合情感识别的分层生成模型、基于元数据约束的对抗训练方法，以及跨语言音频风格迁移系统的构建。这些研究不仅拓展了条件音频合成的技术边界，也为低资源语言的生成模型研究提供了新的方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集