ParaSpeechCaps

github2025-03-24 更新2025-03-08 收录

下载链接：

https://github.com/ajd12342/paraspeechcaps

下载链接

链接失效反馈

官方服务：

资源简介：

ParaSpeechCaps是一个大规模数据集，用于标注语音语句的丰富风格描述。它支持59种风格标签，涵盖音高、节奏、情感等，包括说话者内在风格标签和语句情境风格标签。数据集包含人工标注的子集ParaSpeechCaps-Base和自动标注的大规模子集ParaSpeechCaps-Scaled。

ParaSpeechCaps is a large-scale dataset designed for annotating rich style descriptions of speech utterances. It supports 59 style tags covering aspects such as pitch, rhythm, emotion and more, including both speaker-inherent style tags and utterance-contextual style tags. The dataset includes two subsets: the manually annotated ParaSpeechCaps-Base and the large-scale automatically annotated ParaSpeechCaps-Scaled.

创建时间：

2025-03-04

原始信息汇总

ParaSpeechCaps 数据集概述

1. 概览

数据集名称：ParaSpeechCaps
数据集类型：语音标注数据集
数据集描述：ParaSpeechCaps 是一个大规模的数据集，为语音语句提供了丰富的风格标注，包括音高、节奏、情感等59种风格标签，涵盖了说话人级别的内在风格标签和语句级别的情况风格标签。
数据集组成：包括人工标注的子集 ParaSpeechCaps-Base 和自动标注的子集 ParaSpeechCaps-Scaled。

2. 数据集详情

数据集规模：未提供具体数据量
数据集结构：包含训练集、验证集和测试集等
数据集获取：可通过 Hugging Face Hub 下载，地址为 ajd12342/paraspeechcaps

2.1 安装

Python 环境：建议使用 Conda 和 Python 3.11
依赖安装：pip install datasets

2.2 快速开始

python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("ajd12342/paraspeechcaps")

加载数据集的特定部分

train_scaled = load_dataset("ajd12342/paraspeechcaps", split="train_scaled") train_base = load_dataset("ajd12342/paraspeechcaps", split="train_base") dev = load_dataset("ajd12342/paraspeechcaps", split="dev") holdout = load_dataset("ajd12342/paraspeechcaps", split="holdout")

查看一个示例

example = train_base[0] print(example)

3. 模型详情

模型名称：ParaSpeechCaps 模型
模型描述：基于 ParaSpeechCaps 数据集训练的 TTS 模型，可以生成具有丰富风格的语音。

3.1 安装

Python 环境：建议使用 Conda 和 Python 3.11
依赖安装：pip install -e .[train]

3.2 快速开始

python import torch from parler_tts import ParlerTTSForConditionalGeneration from transformers import AutoTokenizer import soundfile as sf

模型初始化和推理示例代码

4. 引用

bibtex @misc{diwan2025scalingrichstylepromptedtexttospeech, title={Scaling Rich Style-Prompted Text-to-Speech Datasets}, author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi}, year={2025}, eprint={2503.04713}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2503.04713}, }

5. 鸣谢

感谢 Parler-TTS 的作者们对模型开发的贡献。

搜集汇总

数据集介绍

构建方式

ParaSpeechCaps数据集的构建，是通过结合现成的文本和语音嵌入器、分类器以及音频语言模型的新型管道，实现了对广泛的风格标签进行自动扩展注释。该数据集包含人工注释的子集ParaSpeechCaps-Base和自动注释的子集ParaSpeechCaps-Scaled，共同构建了一个大规模的语音注释数据集。

特点

该数据集的特点在于标注了丰富的风格注释，涵盖了如音调、节奏、情感等多种风格标签，既包括说话人级别的内在风格标签，也包括话语级别的情境风格标签。此外，该数据集支持的风格标签数量众多，达到了59种，为文本到语音的转换提供了丰富的风格控制可能性。

使用方法

使用ParaSpeechCaps数据集，用户首先需要在Python环境中安装必要的依赖包，然后可以通过Hugging Face Hub提供的load_dataset函数加载整个数据集或其特定部分。对于数据集的使用，用户可以参考提供的示例代码进行加载和访问，同时也可以根据需要使用数据集中的不同子集进行训练或评估。

背景与挑战

背景概述

ParaSpeechCaps数据集，由Anuj Diwan、Zhisheng Zheng、David Harwath和Eunsol Choi等研究人员创建，旨在为语音片段提供丰富的风格标注。该数据集包含59种风格标签，涵盖音调、节奏、情感等方面，分为 speaker-level 的内在风格标签和utterance-level的情境风格标签。该数据集由人工标注的子集ParaSpeechCaps-Base和自动标注的子集ParaSpeechCaps-Scaled组成。其创新的工作流程结合了现成的文本和语音嵌入器、分类器和音频语言模型，首次实现了对如此广泛的风格标签的自动扩展标注。ParaSpeechCaps数据集的发布，对语音合成领域产生了显著影响，为研究提供了新的视角和工具。

当前挑战

在构建ParaSpeechCaps数据集的过程中，研究人员面临了多项挑战。首先，创建一个大规模且标注详尽的语音风格数据集需要大量的人力和时间投入。其次，自动标注过程中，确保标注质量和一致性是一大难点。此外，数据集的构建不仅要满足当前的研究需求，还需要具有一定的通用性和扩展性，以适应未来可能的研究方向。在研究领域问题上，ParaSpeechCaps数据集旨在推动文本到语音合成的风格控制研究，如何在实际应用中准确捕捉并重现丰富的语音风格，是该数据集需要解决的关键挑战。

常用场景

经典使用场景

ParaSpeechCaps数据集的典型应用场景在于语音合成领域，特别是在风格化文本到语音的生成任务中。该数据集通过为语音样本标注丰富的风格标签，如音高、节奏、情感等，使得研究者能够训练和评估语音合成模型在风格控制方面的性能，从而生成符合特定风格描述的语音。

实际应用

在实际应用中，ParaSpeechCaps数据集可用于开发更加人性化的语音助手和聊天机器人，它们能够根据用户的文本输入，生成具有特定情感和风格的语音输出，提升用户体验。此外，它在语音娱乐、教育以及个性化语音播报等领域也具有广泛的应用前景。

衍生相关工作

基于ParaSpeechCaps数据集，研究者可以开展一系列相关工作，如风格化语音合成的模型改进、语音风格分类与识别、跨语种语音风格迁移等。该数据集的发布促进了语音合成领域的研究进展，衍生出了多个关注语音风格表达和控制的经典研究工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集