five

flexthink/ljspeech|语音识别数据集|数据集数据集

收藏
hugging_face2022-02-06 更新2024-03-04 收录
语音识别
数据集
下载链接:
https://hf-mirror.com/datasets/flexthink/ljspeech
下载链接
链接失效反馈
资源简介:
LJ Speech Dataset是一个公共领域的语音数据集,包含13,100个短音频片段,这些片段是由一个朗读者从7本非小说类书籍中朗读的段落。每个片段都有对应的转录文本。音频片段长度在1到10秒之间,总时长约为24小时。文本内容发表于1884年至1964年之间,音频录制于2016-17年,均为公共领域资源。数据集提供了训练、验证和测试集的划分,并以JSON和CSV格式提供了元数据。音频文件为单声道16位PCM WAV格式,采样率为22050 Hz。
提供机构:
flexthink
原始信息汇总

The LJ Speech Dataset 概述

数据集基本信息

  • 版本:1.0
  • 发布日期:2017年7月5日
  • 来源:https://keithito.com/LJ-Speech-Dataset

数据集内容

  • 音频片段数量:13,100
  • 音频来源:单个演讲者阅读的7本非小说书籍
  • 音频长度:每个片段1至10秒,总时长约24小时
  • 文本来源:1884至1964年间出版的公共领域书籍
  • 音频录制:2016-2017年,由LibriVox项目录制

文件格式与结构

  • 音频格式:单声道16位PCM WAV,采样率22050 Hz
  • 文本文件:每个音频文件对应一个转录文本
  • JSON文件结构: json { "<sample-id>": { "char_raw": "<label text (raw)>", "char": "<label text (preprocessed)", "phn": "<experimental phoneme annotation>", "wav": "<relative path to the file>" } }

数据集统计

  • 总字数:225,715
  • 总字符数:1,308,674
  • 总时长:23小时55分17秒
  • 平均片段时长:6.57秒
  • 最小片段时长:1.11秒
  • 最大片段时长:10.10秒
  • 平均每片段字数:17.23
  • 不同单词数量:13,821

其他信息

  • 音频片段分割:基于录音中的静音自动分割,边界通常与句或子句边界对齐
  • 文本与音频匹配:手动匹配,并进行质量保证检查
  • 原始录音格式:128 kbps MP3,可能包含MP3编码引入的伪影
  • 文本中的缩写:如Mr., Mrs., Dr.等,部分有标准扩展形式

许可与使用

  • 版权状态:公共领域,无使用限制
  • 引用信息:可引用https://keithito.com/LJ-Speech-Dataset或使用提供的引用格式

数据集更新

  • 1.1版:移除了30个无对应注释的.wav文件(2018年2月19日)
AI搜集汇总
数据集介绍
main_image_url
构建方式
LJ Speech数据集由13,100个短音频片段组成,这些片段来自一位单一发言者朗读的7本非小说类书籍的段落。每个片段都附有相应的转录文本,片段长度从1秒到10秒不等,总时长约为24小时。文本出版于1884年至1964年间,音频则由LibriVox项目在2016-17年间录制,两者均处于公共领域。数据集通过手动匹配文本与音频,并进行了质量保证检查,以确保文本与音频内容的一致性。
特点
该数据集的特点在于其单一发言者的音频片段,适合用于语音合成和语音识别任务。音频片段长度多样,从1秒到10秒不等,且包含详细的元数据,如原始文本、预处理文本、音素注释和音频文件路径。此外,数据集提供了训练、验证和测试集的划分,便于模型训练和评估。
使用方法
LJ Speech数据集可以通过HuggingFace的Arrow数据集格式直接使用,提供了便捷的数据加载和处理方式。用户可以利用提供的JSON文件进行数据划分和元数据访问,同时也可以直接使用metadata.csv文件进行数据分析。音频文件为单声道16位PCM WAV格式,采样率为22050 Hz,适合用于各种语音处理任务,如语音合成、语音识别和音素识别等。
背景与挑战
背景概述
LJ Speech数据集是由Keith Ito于2017年创建的公开领域语音数据集,包含13,100个短音频片段,由单一演讲者朗读7本非虚构书籍的段落。每个片段附有转录文本,音频时长从1秒到10秒不等,总计约24小时。该数据集的文本来源于1884年至1964年间出版的公共领域书籍,音频则由LibriVox项目在2016-17年间录制,同样属于公共领域。LJ Speech数据集的发布极大地推动了语音合成和语音识别领域的研究,为研究人员提供了一个高质量、多样化的语音数据资源。
当前挑战
LJ Speech数据集在构建过程中面临多项挑战。首先,音频片段的自动分割基于录音中的静音,这可能导致片段边界不完全与句子或从句边界对齐。其次,文本与音频的手动匹配需要确保转录的准确性,这是一个耗时且易出错的过程。此外,原始LibriVox录音为128 kbps的MP3文件,可能包含因编码引入的音频伪影。最后,数据集中包含19个包含非ASCII字符的转录,这为处理和分析带来了额外的复杂性。这些挑战不仅影响了数据集的构建效率,也可能对基于该数据集的语音处理模型的性能产生影响。
常用场景
经典使用场景
LJ Speech数据集在语音合成领域中被广泛应用于训练和评估文本到语音(TTS)系统。其经典使用场景包括构建基于深度学习的语音合成模型,如WaveNet、Tacotron等,这些模型能够生成高质量的自然语音。数据集的单一说话人特性使得模型能够专注于语音合成的核心技术,而不受多说话人变量的干扰。
解决学术问题
LJ Speech数据集解决了语音合成领域中高质量语音数据稀缺的问题。通过提供13,100个短音频片段及其对应的文本转录,该数据集为研究人员提供了一个标准化的基准,用于评估和比较不同语音合成模型的性能。这不仅推动了语音合成技术的进步,还为相关领域的研究提供了丰富的实验数据。
衍生相关工作
基于LJ Speech数据集,许多经典工作得以展开,如Google的WaveNet和DeepMind的Tacotron系列模型。这些模型在语音合成领域取得了显著的进展,推动了整个行业的发展。此外,该数据集还被用于研究语音合成的多样性、语音情感识别等新兴领域,进一步拓展了其应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录