amaai-lab/DisfluencySpeech
收藏Hugging Face2024-06-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/amaai-lab/DisfluencySpeech
下载链接
链接失效反馈官方服务:
资源简介:
DisfluencySpeech数据集是一个单说话者的高质量英语语音数据集,包含副语言信息。该数据集基于Switchboard-1 Telephone Speech Corpus,模拟了真实的非正式对话。数据集提供了三种不同信息移除级别的转录文本,用于开发能够从文本中预测性合成副语言的文本到语音(TTS)模型。数据集包含音频文件和四种不同级别的转录文本,分别保留了不同的信息。数据集分为训练集、验证集和测试集,分别占数据的90%、5%和5%。
DisfluencySpeech数据集是一个单说话者的高质量英语语音数据集,包含副语言信息。该数据集基于Switchboard-1 Telephone Speech Corpus,模拟了真实的非正式对话。数据集提供了三种不同信息移除级别的转录文本,用于开发能够从文本中预测性合成副语言的文本到语音(TTS)模型。数据集包含音频文件和四种不同级别的转录文本,分别保留了不同的信息。数据集分为训练集、验证集和测试集,分别占数据的90%、5%和5%。
提供机构:
amaai-lab
原始信息汇总
数据集概述
数据集名称
DisfluencySpeech Dataset
数据集内容
- 音频特征:单个音频文件。
- 文本特征:
transcript_annotated:包含所有非语音事件和断句标注的完整转录。transcript_a:包含所有文本内容,包括非句子元素和重启,移除了笑声和叹息等非语音事件。transcript_b:移除了填充停顿、显式编辑术语和话语标记的transcript_a。transcript_c:移除了错误开始的transcript_b,是最简化的转录。
数据集结构
- 训练集:包含4500个样本,占总数据量的90%。
- 验证集:包含250个样本,占总数据量的5%。
- 测试集:包含250个样本,占总数据量的5%。
数据集大小
- 下载大小:1482840572字节
- 数据集总大小:1490881823.5字节
数据集文件格式
- 音频文件:22,050 Hz的.wav文件
- 元数据文件:metadata.csv,包含每个文件的四种不同转录
许可证
Apache-2.0



