five

cdminix/libritts-r-aligned

收藏
Hugging Face2024-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cdminix/libritts-r-aligned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于LibriTTS-R语料库,并使用Montreal Forced Aligner工具进行对齐处理。数据集主要用于自动语音识别(ASR)和文本到语音(TTS)任务。用户需要在本地机器上预处理数据以生成对齐信息。数据集包含多个分割,如训练集、验证集和测试集,分别来自LibriSpeech的不同子集。使用该数据集时,用户需要安装特定的Python包,并同意OpenSLR的使用条款。

This dataset is based on the LibriTTS-R corpus and aligned using the Montreal Forced Aligner tool. It is primarily designed for automatic speech recognition (ASR) and text-to-speech (TTS) tasks. Users are required to preprocess the data on their local machines to generate alignment information. The dataset includes multiple splits, such as training, validation, and test sets, which are derived from different subsets of LibriSpeech respectively. When using this dataset, users need to install specific Python packages and agree to the terms of use of OpenSLR.
提供机构:
cdminix
原始信息汇总

数据集概述

名称: LibriTTS Corpus with Forced Alignments

语言: 英语 (en)

标签:

  • 语音 (speech)
  • 音频 (audio)
  • 自动语音识别 (automatic-speech-recognition)
  • 文本到语音 (text-to-speech)

许可证: CC-BY-4.0

任务类别:

  • 自动语音识别
  • 文本到语音

数据集内容

数据预处理: 数据集下载LibriTTS-R并在本地机器上使用montreal forced aligner创建对齐。

要求:

  • 必须安装 alignmentsphones (pip install alignments phones)
  • 可选安装 speech-collator (pip install speech-collator)

示例数据项: json { id: 100_122655_000073_000002.wav, speaker: 100, text: the day after, diana and mary quitted it for distant b., start: 0.0, end: 3.6500000953674316, phones: [[SILENCE], ð, ʌ, [SILENCE], d, eɪ, [SILENCE], æ, f, t, ɜ˞, [COMMA], d, aɪ, æ, n, ʌ, [SILENCE], æ, n, d, [SILENCE], m, ɛ, ɹ, i, [SILENCE], k, w, ɪ, t, ɪ, d, [SILENCE], ɪ, t, [SILENCE], f, ɜ˞, [SILENCE], d, ɪ, s, t, ʌ, n, t, [SILENCE], b, i, [FULL STOP]], phone_durations: [5, 2, 4, 0, 5, 13, 0, 16, 7, 5, 20, 2, 6, 9, 15, 4, 2, 0, 11, 3, 5, 0, 3, 8, 9, 8, 0, 13, 3, 5, 3, 6, 4, 0, 8, 5, 0, 9, 5, 0, 7, 5, 6, 7, 4, 5, 10, 0, 3, 35, 9], audio: /dev/shm/metts/train-clean-360-alignments/100/100_122655_000073_000002.wav }

数据集分割

  • train: 所有训练数据,除每个说话者的一个样本用于验证。
  • dev: 验证数据,每个说话者一个样本。
  • train.clean.100: 从LibriSpeech的train-clean-100子集中派生的训练集。
  • train.clean.360: 从LibriSpeech的train-clean-360子集中派生的训练集。
  • train.other.500: 从LibriSpeech的train-other-500子集中派生的训练集。
  • dev.clean: 从LibriSpeech的dev-clean子集中派生的验证集。
  • dev.other: 从LibriSpeech的dev-other子集中派生的验证集。
  • test.clean: 从LibriSpeech的test-clean子集中派生的测试集。
  • test.other: 从LibriSpeech的test-other子集中派生的测试集。

环境变量

  • LIBRITTS_VERBOSE: 如果设置,将打印更多关于数据集创建过程的信息。
  • LIBRITTS_MAX_WORKERS: 创建对齐时使用的工人数量。默认为cpu_count()
  • LIBRITTS_PATH: 下载LibriTTS的路径。默认为HF_DATASETS_CACHE的值。

引用

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于LibriTTS-R语料库的语音数据集,提供音素对齐和详细标注,适用于自动语音识别和文本到语音任务。使用前需安装特定依赖库,并包含多个训练和验证分割版本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作