flexthink/ljspeech|语音识别数据集|数据集数据集
收藏hugging_face2022-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flexthink/ljspeech
下载链接
链接失效反馈资源简介:
LJ Speech Dataset是一个公共领域的语音数据集,包含13,100个短音频片段,这些片段是由一个朗读者从7本非小说类书籍中朗读的段落。每个片段都有对应的转录文本。音频片段长度在1到10秒之间,总时长约为24小时。文本内容发表于1884年至1964年之间,音频录制于2016-17年,均为公共领域资源。数据集提供了训练、验证和测试集的划分,并以JSON和CSV格式提供了元数据。音频文件为单声道16位PCM WAV格式,采样率为22050 Hz。
提供机构:
flexthink
原始信息汇总
The LJ Speech Dataset 概述
数据集基本信息
- 版本:1.0
- 发布日期:2017年7月5日
- 来源:https://keithito.com/LJ-Speech-Dataset
数据集内容
- 音频片段数量:13,100
- 音频来源:单个演讲者阅读的7本非小说书籍
- 音频长度:每个片段1至10秒,总时长约24小时
- 文本来源:1884至1964年间出版的公共领域书籍
- 音频录制:2016-2017年,由LibriVox项目录制
文件格式与结构
- 音频格式:单声道16位PCM WAV,采样率22050 Hz
- 文本文件:每个音频文件对应一个转录文本
- JSON文件结构: json { "<sample-id>": { "char_raw": "<label text (raw)>", "char": "<label text (preprocessed)", "phn": "<experimental phoneme annotation>", "wav": "<relative path to the file>" } }
数据集统计
- 总字数:225,715
- 总字符数:1,308,674
- 总时长:23小时55分17秒
- 平均片段时长:6.57秒
- 最小片段时长:1.11秒
- 最大片段时长:10.10秒
- 平均每片段字数:17.23
- 不同单词数量:13,821
其他信息
- 音频片段分割:基于录音中的静音自动分割,边界通常与句或子句边界对齐
- 文本与音频匹配:手动匹配,并进行质量保证检查
- 原始录音格式:128 kbps MP3,可能包含MP3编码引入的伪影
- 文本中的缩写:如Mr., Mrs., Dr.等,部分有标准扩展形式
许可与使用
- 版权状态:公共领域,无使用限制
- 引用信息:可引用https://keithito.com/LJ-Speech-Dataset或使用提供的引用格式
数据集更新
- 1.1版:移除了30个无对应注释的.wav文件(2018年2月19日)
AI搜集汇总
数据集介绍

构建方式
LJ Speech数据集由13,100个短音频片段组成,这些片段来自一位单一发言者朗读的7本非小说类书籍的段落。每个片段都附有相应的转录文本,片段长度从1秒到10秒不等,总时长约为24小时。文本出版于1884年至1964年间,音频则由LibriVox项目在2016-17年间录制,两者均处于公共领域。数据集通过手动匹配文本与音频,并进行了质量保证检查,以确保文本与音频内容的一致性。
特点
该数据集的特点在于其单一发言者的音频片段,适合用于语音合成和语音识别任务。音频片段长度多样,从1秒到10秒不等,且包含详细的元数据,如原始文本、预处理文本、音素注释和音频文件路径。此外,数据集提供了训练、验证和测试集的划分,便于模型训练和评估。
使用方法
LJ Speech数据集可以通过HuggingFace的Arrow数据集格式直接使用,提供了便捷的数据加载和处理方式。用户可以利用提供的JSON文件进行数据划分和元数据访问,同时也可以直接使用metadata.csv文件进行数据分析。音频文件为单声道16位PCM WAV格式,采样率为22050 Hz,适合用于各种语音处理任务,如语音合成、语音识别和音素识别等。
背景与挑战
背景概述
LJ Speech数据集是由Keith Ito于2017年创建的公开领域语音数据集,包含13,100个短音频片段,由单一演讲者朗读7本非虚构书籍的段落。每个片段附有转录文本,音频时长从1秒到10秒不等,总计约24小时。该数据集的文本来源于1884年至1964年间出版的公共领域书籍,音频则由LibriVox项目在2016-17年间录制,同样属于公共领域。LJ Speech数据集的发布极大地推动了语音合成和语音识别领域的研究,为研究人员提供了一个高质量、多样化的语音数据资源。
当前挑战
LJ Speech数据集在构建过程中面临多项挑战。首先,音频片段的自动分割基于录音中的静音,这可能导致片段边界不完全与句子或从句边界对齐。其次,文本与音频的手动匹配需要确保转录的准确性,这是一个耗时且易出错的过程。此外,原始LibriVox录音为128 kbps的MP3文件,可能包含因编码引入的音频伪影。最后,数据集中包含19个包含非ASCII字符的转录,这为处理和分析带来了额外的复杂性。这些挑战不仅影响了数据集的构建效率,也可能对基于该数据集的语音处理模型的性能产生影响。
常用场景
经典使用场景
LJ Speech数据集在语音合成领域中被广泛应用于训练和评估文本到语音(TTS)系统。其经典使用场景包括构建基于深度学习的语音合成模型,如WaveNet、Tacotron等,这些模型能够生成高质量的自然语音。数据集的单一说话人特性使得模型能够专注于语音合成的核心技术,而不受多说话人变量的干扰。
解决学术问题
LJ Speech数据集解决了语音合成领域中高质量语音数据稀缺的问题。通过提供13,100个短音频片段及其对应的文本转录,该数据集为研究人员提供了一个标准化的基准,用于评估和比较不同语音合成模型的性能。这不仅推动了语音合成技术的进步,还为相关领域的研究提供了丰富的实验数据。
衍生相关工作
基于LJ Speech数据集,许多经典工作得以展开,如Google的WaveNet和DeepMind的Tacotron系列模型。这些模型在语音合成领域取得了显著的进展,推动了整个行业的发展。此外,该数据集还被用于研究语音合成的多样性、语音情感识别等新兴领域,进一步拓展了其应用范围。
以上内容由AI搜集并总结生成



