ParaSpeechCaps
收藏ParaSpeechCaps 数据集概述
1. 概览
- 数据集名称:ParaSpeechCaps
- 数据集类型:语音标注数据集
- 数据集描述:ParaSpeechCaps 是一个大规模的数据集,为语音语句提供了丰富的风格标注,包括音高、节奏、情感等59种风格标签,涵盖了说话人级别的内在风格标签和语句级别的情况风格标签。
- 数据集组成:包括人工标注的子集 ParaSpeechCaps-Base 和自动标注的子集 ParaSpeechCaps-Scaled。
2. 数据集详情
- 数据集规模:未提供具体数据量
- 数据集结构:包含训练集、验证集和测试集等
- 数据集获取:可通过 Hugging Face Hub 下载,地址为 ajd12342/paraspeechcaps
2.1 安装
- Python 环境:建议使用 Conda 和 Python 3.11
- 依赖安装:
pip install datasets
2.2 快速开始
python from datasets import load_dataset
加载整个数据集
dataset = load_dataset("ajd12342/paraspeechcaps")
加载数据集的特定部分
train_scaled = load_dataset("ajd12342/paraspeechcaps", split="train_scaled") train_base = load_dataset("ajd12342/paraspeechcaps", split="train_base") dev = load_dataset("ajd12342/paraspeechcaps", split="dev") holdout = load_dataset("ajd12342/paraspeechcaps", split="holdout")
查看一个示例
example = train_base[0] print(example)
3. 模型详情
- 模型名称:ParaSpeechCaps 模型
- 模型描述:基于 ParaSpeechCaps 数据集训练的 TTS 模型,可以生成具有丰富风格的语音。
3.1 安装
- Python 环境:建议使用 Conda 和 Python 3.11
- 依赖安装:
pip install -e .[train]
3.2 快速开始
python import torch from parler_tts import ParlerTTSForConditionalGeneration from transformers import AutoTokenizer import soundfile as sf
模型初始化和推理示例代码
4. 引用
bibtex @misc{diwan2025scalingrichstylepromptedtexttospeech, title={Scaling Rich Style-Prompted Text-to-Speech Datasets}, author={Anuj Diwan and Zhisheng Zheng and David Harwath and Eunsol Choi}, year={2025}, eprint={2503.04713}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2503.04713}, }
5. 鸣谢
- 感谢 Parler-TTS 的作者们对模型开发的贡献。




