five

keithito/lj_speech

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/keithito/lj_speech
下载链接
链接失效反馈
官方服务:
资源简介:
LJ Speech是一个公共领域的语音数据集,包含13,100个由单一朗读者朗读的短音频片段,这些片段来自7本非小说类书籍的段落。每个音频片段都有对应的转录文本。音频片段的长度在1到10秒之间,总时长约为24小时。文本内容发表于1884年至1964年之间,属于公共领域。音频由LibriVox项目在2016-17年录制,同样属于公共领域。数据集主要用于自动语音识别(ASR)和文本到语音(TTS)任务。数据集的语言为英语,音频采样率为22050 Hz。

LJ Speech是一个公共领域的语音数据集,包含13,100个由单一朗读者朗读的短音频片段,这些片段来自7本非小说类书籍的段落。每个音频片段都有对应的转录文本。音频片段的长度在1到10秒之间,总时长约为24小时。文本内容发表于1884年至1964年之间,属于公共领域。音频由LibriVox项目在2016-17年录制,同样属于公共领域。数据集主要用于自动语音识别(ASR)和文本到语音(TTS)任务。数据集的语言为英语,音频采样率为22050 Hz。
提供机构:
keithito
原始信息汇总

数据集概述

数据集名称: LJ Speech

语言: 英语

许可证: 无版权 (unlicense)

多语言性: 单语种

数据集大小: 10K<n<100K

源数据: 原始数据

任务类别:

  • 自动语音识别 (automatic-speech-recognition)
  • 文本到语音 (text-to-speech)
  • 文本到音频 (text-to-audio)

训练评估索引:

  • 配置: main
  • 任务: 自动语音识别
  • 任务ID: speech_recognition
  • 分割:
    • 训练分割: train
  • 列映射:
    • 文件: path
    • 文本: text
  • 指标:
    • 类型: wer
    • 名称: WER
    • 类型: cer
    • 名称: CER

数据集结构

数据实例:

  • 包含音频文件路径 (file) 和文本转录 (text)。
  • 音频文件为单通道16位PCM WAV格式,采样率为22050 Hz。

数据字段:

  • id: 数据样本的唯一ID。
  • file: 下载的音频文件路径。
  • audio: 包含音频文件路径、解码音频数组和采样率的字典。
  • text: 音频文件的转录文本。
  • normalized_text: 转录文本的规范化版本,数字、序数和货币单位扩展为全词。

数据分割:

  • 训练集: 13100个样本,总字节数为4667022。

数据集创建

源数据:

  • 包含来自7本非虚构书籍的摘录,出版年份介于1884至1964年。
  • 音频由LibriVox项目在2016-17年录制。

注释:

  • 音频片段长度约1至10秒,自动根据录音中的静音分割。
  • 文本与音频手动匹配,并进行质量保证检查以确保准确性。

个人和敏感信息:

  • 数据集包含在线捐赠的语音,用户同意不尝试确定说话者的身份。

使用数据的考虑

已知限制:

  • 原始LibriVox录音为128 kbps MP3文件,可能包含MP3编码引入的伪影。
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成与识别研究领域,高质量的单说话人语音数据集是模型训练与评估的基石。LJ Speech数据集的构建源于公共领域的非虚构书籍文本,由朗读者Linda Johnson通过LibriVox项目录制为音频。原始录音经自动静音检测分割为1至10秒的独立片段,并通过专家手动对齐与质量审核,确保每个音频片段与其对应文本转录的精确匹配,最终形成包含13,100条样本的标准化语料库。
特点
该数据集以其纯净的单说话人语音与详尽的文本标注而著称。所有音频均为单通道16位PCM WAV格式,采样率统一为22050赫兹,总时长接近24小时。每条数据不仅提供原始文本转录,还包含经过数字、序数及货币单位词汇扩展的规范化文本版本,有效支持了语音处理任务中对文本一致性的高阶需求。数据规模适中,覆盖22万余词汇,为模型训练提供了充分的语言多样性。
使用方法
研究者可借助该数据集开展自动语音识别与文本到语音合成任务的模型训练与基准测试。在自动语音识别任务中,模型依据音频输入预测文本,常用词错误率进行评估;在语音合成任务中,模型根据文本生成语音,可通过平均意见得分衡量生成质量。数据加载时,建议优先通过索引访问音频字段以实现自动解码与重采样,从而提升处理效率。该数据集已集成于主流机器学习平台,支持便捷的流水线调用。
背景与挑战
背景概述
LJ Speech数据集由Keith Ito与Linda Johnson于2017年共同创建,旨在为语音合成与识别研究提供高质量的公开基准资源。该数据集收录了单一说话人朗读七部非虚构著作的13,100段音频片段,总时长约24小时,文本内容涵盖1884年至1964年的公共领域作品。作为语音技术领域的重要开源数据,LJ Speech以其清晰的发音、规范的文本对齐与丰富的语言结构,显著推动了端到端文本到语音模型的发展,成为众多先进语音生成与识别系统的核心训练基础。
当前挑战
在语音合成领域,LJ Speech致力于解决从文本生成自然、流畅语音的挑战,其核心难点在于建模复杂的韵律特征、消除合成语音的机械感,并实现跨语境的情感一致性。数据构建过程中,挑战主要源于音频与文本的精确对齐:原始录音为MP3格式,需转换为无损WAV格式并消除编码伪影;同时,自动分段依赖静音检测,可能导致句子边界偏差,需通过人工校对确保转录文本与语音内容的严格匹配。此外,数据仅包含单一说话人,限制了模型在说话人多样性与口音泛化能力上的探索。
常用场景
经典使用场景
在语音合成与识别研究领域,LJ Speech数据集以其高质量的单说话人录音与精准的文本对齐,成为评估文本到语音转换模型性能的基准工具。该数据集常被用于训练端到端的神经语音合成系统,如Tacotron系列模型,通过输入文本序列生成自然流畅的语音波形。研究者利用其长达24小时的音频素材,优化声学模型与声码器的联合训练,以提升合成语音的自然度与清晰度,推动语音生成技术向更接近人类表达的方向演进。
解决学术问题
LJ Speech数据集有效解决了语音技术研究中数据稀缺与质量不均的难题,为文本到语音与自动语音识别任务提供了标准化的评估基准。在学术层面,它助力研究者深入探索韵律建模、音素对齐及跨语言语音合成等核心问题,通过量化指标如词错误率与平均意见分数,客观比较不同模型的性能差异。该数据集的存在加速了端到端神经网络的创新,降低了语音系统对大量标注数据的依赖,为语音人工智能的可靠性与泛化能力奠定了实证基础。
衍生相关工作
围绕LJ Speech数据集,语音学界涌现了一系列经典研究工作,其中Tacotron 2与WaveNet等模型率先利用其进行端到端语音合成的实证验证。后续的FastSpeech系列通过引入时长预测器优化了合成效率,而HiFi-GAN等神经声码器则显著提升了音频的保真度。这些衍生成果不仅巩固了LJ Speech在语音合成领域的基准地位,更推动了并行生成、对抗训练等前沿方法的演进,持续丰富着语音人工智能的技术图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作