five

flexthink/ljspeech

收藏
Hugging Face2022-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flexthink/ljspeech
下载链接
链接失效反馈
官方服务:
资源简介:
LJ Speech Dataset是一个公共领域的语音数据集,包含13,100个短音频片段,这些片段是由一个朗读者从7本非小说类书籍中朗读的段落。每个片段都有对应的转录文本。音频片段长度在1到10秒之间,总时长约为24小时。文本内容发表于1884年至1964年之间,音频录制于2016-17年,均为公共领域资源。数据集提供了训练、验证和测试集的划分,并以JSON和CSV格式提供了元数据。音频文件为单声道16位PCM WAV格式,采样率为22050 Hz。

The LJ Speech Dataset is a public-domain speech dataset containing 13,100 short audio clips. These clips are paragraphs read by a single narrator from seven non-fiction books, with each clip paired with its corresponding transcription text. The duration of each audio segment ranges from 1 to 10 seconds, and the total accumulated duration of the dataset is approximately 24 hours. The text content was published between 1884 and 1964, while the audio recordings were made in 2016 and 2017, and all resources associated with the dataset fall into the public domain. The dataset provides pre-defined train, validation, and test splits, with its metadata made available in both JSON and CSV formats. All audio files are in mono 16-bit PCM WAV format with a sampling rate of 22050 Hz.
提供机构:
flexthink
原始信息汇总

The LJ Speech Dataset 概述

数据集基本信息

  • 版本:1.0
  • 发布日期:2017年7月5日
  • 来源:https://keithito.com/LJ-Speech-Dataset

数据集内容

  • 音频片段数量:13,100
  • 音频来源:单个演讲者阅读的7本非小说书籍
  • 音频长度:每个片段1至10秒,总时长约24小时
  • 文本来源:1884至1964年间出版的公共领域书籍
  • 音频录制:2016-2017年,由LibriVox项目录制

文件格式与结构

  • 音频格式:单声道16位PCM WAV,采样率22050 Hz
  • 文本文件:每个音频文件对应一个转录文本
  • JSON文件结构: json { "<sample-id>": { "char_raw": "<label text (raw)>", "char": "<label text (preprocessed)", "phn": "<experimental phoneme annotation>", "wav": "<relative path to the file>" } }

数据集统计

  • 总字数:225,715
  • 总字符数:1,308,674
  • 总时长:23小时55分17秒
  • 平均片段时长:6.57秒
  • 最小片段时长:1.11秒
  • 最大片段时长:10.10秒
  • 平均每片段字数:17.23
  • 不同单词数量:13,821

其他信息

  • 音频片段分割:基于录音中的静音自动分割,边界通常与句或子句边界对齐
  • 文本与音频匹配:手动匹配,并进行质量保证检查
  • 原始录音格式:128 kbps MP3,可能包含MP3编码引入的伪影
  • 文本中的缩写:如Mr., Mrs., Dr.等,部分有标准扩展形式

许可与使用

  • 版权状态:公共领域,无使用限制
  • 引用信息:可引用https://keithito.com/LJ-Speech-Dataset或使用提供的引用格式

数据集更新

  • 1.1版:移除了30个无对应注释的.wav文件(2018年2月19日)
搜集汇总
数据集介绍
main_image_url
构建方式
LJ Speech数据集由13,100个短音频片段组成,这些片段来自一位单一发言者朗读的7本非小说类书籍的段落。每个片段都附有相应的转录文本,片段长度从1秒到10秒不等,总时长约为24小时。文本出版于1884年至1964年间,音频则由LibriVox项目在2016-17年间录制,两者均处于公共领域。数据集通过手动匹配文本与音频,并进行了质量保证检查,以确保文本与音频内容的一致性。
特点
该数据集的特点在于其单一发言者的音频片段,适合用于语音合成和语音识别任务。音频片段长度多样,从1秒到10秒不等,且包含详细的元数据,如原始文本、预处理文本、音素注释和音频文件路径。此外,数据集提供了训练、验证和测试集的划分,便于模型训练和评估。
使用方法
LJ Speech数据集可以通过HuggingFace的Arrow数据集格式直接使用,提供了便捷的数据加载和处理方式。用户可以利用提供的JSON文件进行数据划分和元数据访问,同时也可以直接使用metadata.csv文件进行数据分析。音频文件为单声道16位PCM WAV格式,采样率为22050 Hz,适合用于各种语音处理任务,如语音合成、语音识别和音素识别等。
背景与挑战
背景概述
LJ Speech数据集是由Keith Ito于2017年创建的公开领域语音数据集,包含13,100个短音频片段,由单一演讲者朗读7本非虚构书籍的段落。每个片段附有转录文本,音频时长从1秒到10秒不等,总计约24小时。该数据集的文本来源于1884年至1964年间出版的公共领域书籍,音频则由LibriVox项目在2016-17年间录制,同样属于公共领域。LJ Speech数据集的发布极大地推动了语音合成和语音识别领域的研究,为研究人员提供了一个高质量、多样化的语音数据资源。
当前挑战
LJ Speech数据集在构建过程中面临多项挑战。首先,音频片段的自动分割基于录音中的静音,这可能导致片段边界不完全与句子或从句边界对齐。其次,文本与音频的手动匹配需要确保转录的准确性,这是一个耗时且易出错的过程。此外,原始LibriVox录音为128 kbps的MP3文件,可能包含因编码引入的音频伪影。最后,数据集中包含19个包含非ASCII字符的转录,这为处理和分析带来了额外的复杂性。这些挑战不仅影响了数据集的构建效率,也可能对基于该数据集的语音处理模型的性能产生影响。
常用场景
经典使用场景
LJ Speech数据集在语音合成领域中被广泛应用于训练和评估文本到语音(TTS)系统。其经典使用场景包括构建基于深度学习的语音合成模型,如WaveNet、Tacotron等,这些模型能够生成高质量的自然语音。数据集的单一说话人特性使得模型能够专注于语音合成的核心技术,而不受多说话人变量的干扰。
解决学术问题
LJ Speech数据集解决了语音合成领域中高质量语音数据稀缺的问题。通过提供13,100个短音频片段及其对应的文本转录,该数据集为研究人员提供了一个标准化的基准,用于评估和比较不同语音合成模型的性能。这不仅推动了语音合成技术的进步,还为相关领域的研究提供了丰富的实验数据。
衍生相关工作
基于LJ Speech数据集,许多经典工作得以展开,如Google的WaveNet和DeepMind的Tacotron系列模型。这些模型在语音合成领域取得了显著的进展,推动了整个行业的发展。此外,该数据集还被用于研究语音合成的多样性、语音情感识别等新兴领域,进一步拓展了其应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作