flexthink/ljspeech|语音识别数据集|数据集数据集

hugging_face2022-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/flexthink/ljspeech

下载链接

链接失效反馈

资源简介：

LJ Speech Dataset是一个公共领域的语音数据集，包含13,100个短音频片段，这些片段是由一个朗读者从7本非小说类书籍中朗读的段落。每个片段都有对应的转录文本。音频片段长度在1到10秒之间，总时长约为24小时。文本内容发表于1884年至1964年之间，音频录制于2016-17年，均为公共领域资源。数据集提供了训练、验证和测试集的划分，并以JSON和CSV格式提供了元数据。音频文件为单声道16位PCM WAV格式，采样率为22050 Hz。

提供机构：

flexthink

原始信息汇总

The LJ Speech Dataset 概述

数据集基本信息

版本：1.0
发布日期：2017年7月5日
来源：https://keithito.com/LJ-Speech-Dataset

数据集内容

音频片段数量：13,100
音频来源：单个演讲者阅读的7本非小说书籍
音频长度：每个片段1至10秒，总时长约24小时
文本来源：1884至1964年间出版的公共领域书籍
音频录制：2016-2017年，由LibriVox项目录制

文件格式与结构

音频格式：单声道16位PCM WAV，采样率22050 Hz
文本文件：每个音频文件对应一个转录文本
JSON文件结构： json { "<sample-id>": { "char_raw": "<label text (raw)>", "char": "<label text (preprocessed)", "phn": "<experimental phoneme annotation>", "wav": "<relative path to the file>" } }

数据集统计

总字数：225,715
总字符数：1,308,674
总时长：23小时55分17秒
平均片段时长：6.57秒
最小片段时长：1.11秒
最大片段时长：10.10秒
平均每片段字数：17.23
不同单词数量：13,821

其他信息

音频片段分割：基于录音中的静音自动分割，边界通常与句或子句边界对齐
文本与音频匹配：手动匹配，并进行质量保证检查
原始录音格式：128 kbps MP3，可能包含MP3编码引入的伪影
文本中的缩写：如Mr., Mrs., Dr.等，部分有标准扩展形式

许可与使用

版权状态：公共领域，无使用限制
引用信息：可引用https://keithito.com/LJ-Speech-Dataset或使用提供的引用格式

数据集更新

1.1版：移除了30个无对应注释的.wav文件（2018年2月19日）

AI搜集汇总

数据集介绍

构建方式

LJ Speech数据集由13,100个短音频片段组成，这些片段来自一位单一发言者朗读的7本非小说类书籍的段落。每个片段都附有相应的转录文本，片段长度从1秒到10秒不等，总时长约为24小时。文本出版于1884年至1964年间，音频则由LibriVox项目在2016-17年间录制，两者均处于公共领域。数据集通过手动匹配文本与音频，并进行了质量保证检查，以确保文本与音频内容的一致性。

特点

该数据集的特点在于其单一发言者的音频片段，适合用于语音合成和语音识别任务。音频片段长度多样，从1秒到10秒不等，且包含详细的元数据，如原始文本、预处理文本、音素注释和音频文件路径。此外，数据集提供了训练、验证和测试集的划分，便于模型训练和评估。

使用方法

LJ Speech数据集可以通过HuggingFace的Arrow数据集格式直接使用，提供了便捷的数据加载和处理方式。用户可以利用提供的JSON文件进行数据划分和元数据访问，同时也可以直接使用metadata.csv文件进行数据分析。音频文件为单声道16位PCM WAV格式，采样率为22050 Hz，适合用于各种语音处理任务，如语音合成、语音识别和音素识别等。

背景与挑战

背景概述

LJ Speech数据集是由Keith Ito于2017年创建的公开领域语音数据集，包含13,100个短音频片段，由单一演讲者朗读7本非虚构书籍的段落。每个片段附有转录文本，音频时长从1秒到10秒不等，总计约24小时。该数据集的文本来源于1884年至1964年间出版的公共领域书籍，音频则由LibriVox项目在2016-17年间录制，同样属于公共领域。LJ Speech数据集的发布极大地推动了语音合成和语音识别领域的研究，为研究人员提供了一个高质量、多样化的语音数据资源。

当前挑战

LJ Speech数据集在构建过程中面临多项挑战。首先，音频片段的自动分割基于录音中的静音，这可能导致片段边界不完全与句子或从句边界对齐。其次，文本与音频的手动匹配需要确保转录的准确性，这是一个耗时且易出错的过程。此外，原始LibriVox录音为128 kbps的MP3文件，可能包含因编码引入的音频伪影。最后，数据集中包含19个包含非ASCII字符的转录，这为处理和分析带来了额外的复杂性。这些挑战不仅影响了数据集的构建效率，也可能对基于该数据集的语音处理模型的性能产生影响。

常用场景

经典使用场景

LJ Speech数据集在语音合成领域中被广泛应用于训练和评估文本到语音（TTS）系统。其经典使用场景包括构建基于深度学习的语音合成模型，如WaveNet、Tacotron等，这些模型能够生成高质量的自然语音。数据集的单一说话人特性使得模型能够专注于语音合成的核心技术，而不受多说话人变量的干扰。

解决学术问题

LJ Speech数据集解决了语音合成领域中高质量语音数据稀缺的问题。通过提供13,100个短音频片段及其对应的文本转录，该数据集为研究人员提供了一个标准化的基准，用于评估和比较不同语音合成模型的性能。这不仅推动了语音合成技术的进步，还为相关领域的研究提供了丰富的实验数据。

衍生相关工作

基于LJ Speech数据集，许多经典工作得以展开，如Google的WaveNet和DeepMind的Tacotron系列模型。这些模型在语音合成领域取得了显著的进展，推动了整个行业的发展。此外，该数据集还被用于研究语音合成的多样性、语音情感识别等新兴领域，进一步拓展了其应用范围。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？