five

cdminix/libritts-aligned

收藏
Hugging Face2024-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cdminix/libritts-aligned
下载链接
链接失效反馈
官方服务:
资源简介:
LibriTTS Corpus with Forced Alignments数据集是一个用于自动语音识别(ASR)和文本到语音(TTS)任务的语音数据集。它包含音频文件、对应的文本、音素及其持续时间等信息。数据集提供了预处理的对齐信息,用户无需本地运行Montreal Forced Aligner。数据集还附带了一个数据整理器(data collator),用于创建训练批次数据。数据集分为多个子集,如train、dev、test等,分别对应LibriSpeech的不同子集。

LibriTTS Corpus with Forced Alignments数据集是一个用于自动语音识别(ASR)和文本到语音(TTS)任务的语音数据集。它包含音频文件、对应的文本、音素及其持续时间等信息。数据集提供了预处理的对齐信息,用户无需本地运行Montreal Forced Aligner。数据集还附带了一个数据整理器(data collator),用于创建训练批次数据。数据集分为多个子集,如train、dev、test等,分别对应LibriSpeech的不同子集。
提供机构:
cdminix
原始信息汇总

数据集概述

名称: LibriTTS Corpus with Forced Alignments

描述: 该数据集包含语音数据的强制对齐信息,适用于自动语音识别(ASR)和文本到语音(TTS)任务。

数据集详细信息

语言: 英语(en)

标签:

  • 语音(speech)
  • 音频(audio)
  • 自动语音识别(automatic-speech-recognition)
  • 文本到语音(text-to-speech)

许可证: CC-BY-4.0

任务类别:

  • 自动语音识别
  • 文本到语音

数据集内容:

  • 每个数据项包含音频文件的ID、说话者信息、文本内容、开始和结束时间、音素及其持续时间、音频文件路径。
  • 音素使用国际音标(IPA)表示,音素持续时间以帧为单位。

数据集分割:

  • train: 除每个说话者的一个样本用于验证外的所有训练数据。
  • dev: 每个说话者的一个样本用于验证。
  • train.clean.100, train.clean.360, train.other.500: 分别从LibriSpeech的不同子集中提取的训练数据。
  • dev.clean, dev.other: 分别从LibriSpeech的不同子集中提取的验证数据。
  • test.clean, test.other: 分别从LibriSpeech的不同子集中提取的测试数据。

环境变量:

  • LIBRITTS_VERBOSE: 控制数据集创建过程的信息输出。
  • LIBRITTS_MAX_WORKERS: 设置创建对齐时的最大工作线程数。
  • LIBRITTS_PATH: 设置LibriTTS数据的下载路径。

使用要求

软件依赖:

  • pip install alignments phones (必需)
  • pip install speech-collator (可选)

数据整理器:

  • 提供了一个数据整理器,用于创建训练数据批次。
  • 可通过pip install speech-collator安装,支持自定义的speaker2idxphone2idx映射。

引用信息

引用文献:

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
libritts-aligned是一个基于LibriTTS的英文语音数据集,包含音频文件及其音素级强制对齐信息,适用于自动语音识别和文本转语音任务。数据集提供详细的音素标注和时长信息,并包含多个标准分割子集,需安装特定依赖库后方可使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作