cdminix/libritts-aligned
收藏Hugging Face2024-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cdminix/libritts-aligned
下载链接
链接失效反馈官方服务:
资源简介:
LibriTTS Corpus with Forced Alignments数据集是一个用于自动语音识别(ASR)和文本到语音(TTS)任务的语音数据集。它包含音频文件、对应的文本、音素及其持续时间等信息。数据集提供了预处理的对齐信息,用户无需本地运行Montreal Forced Aligner。数据集还附带了一个数据整理器(data collator),用于创建训练批次数据。数据集分为多个子集,如train、dev、test等,分别对应LibriSpeech的不同子集。
LibriTTS Corpus with Forced Alignments数据集是一个用于自动语音识别(ASR)和文本到语音(TTS)任务的语音数据集。它包含音频文件、对应的文本、音素及其持续时间等信息。数据集提供了预处理的对齐信息,用户无需本地运行Montreal Forced Aligner。数据集还附带了一个数据整理器(data collator),用于创建训练批次数据。数据集分为多个子集,如train、dev、test等,分别对应LibriSpeech的不同子集。
提供机构:
cdminix
原始信息汇总
数据集概述
名称: LibriTTS Corpus with Forced Alignments
描述: 该数据集包含语音数据的强制对齐信息,适用于自动语音识别(ASR)和文本到语音(TTS)任务。
数据集详细信息
语言: 英语(en)
标签:
- 语音(speech)
- 音频(audio)
- 自动语音识别(automatic-speech-recognition)
- 文本到语音(text-to-speech)
许可证: CC-BY-4.0
任务类别:
- 自动语音识别
- 文本到语音
数据集内容:
- 每个数据项包含音频文件的ID、说话者信息、文本内容、开始和结束时间、音素及其持续时间、音频文件路径。
- 音素使用国际音标(IPA)表示,音素持续时间以帧为单位。
数据集分割:
train: 除每个说话者的一个样本用于验证外的所有训练数据。dev: 每个说话者的一个样本用于验证。train.clean.100,train.clean.360,train.other.500: 分别从LibriSpeech的不同子集中提取的训练数据。dev.clean,dev.other: 分别从LibriSpeech的不同子集中提取的验证数据。test.clean,test.other: 分别从LibriSpeech的不同子集中提取的测试数据。
环境变量:
LIBRITTS_VERBOSE: 控制数据集创建过程的信息输出。LIBRITTS_MAX_WORKERS: 设置创建对齐时的最大工作线程数。LIBRITTS_PATH: 设置LibriTTS数据的下载路径。
使用要求
软件依赖:
pip install alignments phones(必需)pip install speech-collator(可选)
数据整理器:
- 提供了一个数据整理器,用于创建训练数据批次。
- 可通过
pip install speech-collator安装,支持自定义的speaker2idx和phone2idx映射。
引用信息
引用文献:
搜集汇总
数据集介绍

背景与挑战
背景概述
libritts-aligned是一个基于LibriTTS的英文语音数据集,包含音频文件及其音素级强制对齐信息,适用于自动语音识别和文本转语音任务。数据集提供详细的音素标注和时长信息,并包含多个标准分割子集,需安装特定依赖库后方可使用。
以上内容由遇见数据集搜集并总结生成



