openslr/librispeech_asr|语音识别数据集|英语语音数据集

hugging_face2024-07-16 更新2024-06-15 收录

语音识别

英语语音

下载链接：

https://hf-mirror.com/datasets/openslr/librispeech_asr

下载链接

链接失效反馈

资源简介：

LibriSpeech是一个包含约1000小时16kHz英语朗读语音的语料库，数据来源于LibriVox项目的有声读物，并经过精心分段和对齐。该数据集支持自动语音识别（ASR）和音频说话人识别任务，主要用于训练模型进行语音到文本的转录。数据集分为clean和other两种配置，分别对应较低和较高单词错误率（WER）的说话人。数据集的结构包括音频文件路径、转录文本、说话人ID、章节ID等信息，并分为训练、验证和测试集。

提供机构：

openslr

原始信息汇总

数据集概述

基本信息

数据集名称: LibriSpeech
语言: 英语
许可证: CC BY 4.0
多语言性: 单语种
数据集大小: 100K<n<1M
源数据: 原始数据
任务类别: 自动语音识别, 音频分类
任务ID: 说话人识别

数据集配置

配置名称: clean

特征:
- file: 字符串
- audio: 音频，采样率16000
- text: 字符串
- speaker_id: 整数
- chapter_id: 整数
- id: 字符串
分割:
- train.100: 28539个样本，6619683041字节
- train.360: 104014个样本，23898214592字节
- validation: 2703个样本，359572231字节
- test: 2620个样本，367705423字节
下载大小: 30121377654字节
数据集大小: 31245175287字节

配置名称: other

特征:
- file: 字符串
- audio: 音频，采样率16000
- text: 字符串
- speaker_id: 整数
- chapter_id: 整数
- id: 字符串
分割:
- train.500: 148688个样本，31810256902字节
- validation: 2864个样本，337283304字节
- test: 2939个样本，352396474字节
下载大小: 31236565377字节
数据集大小: 32499936680字节

配置名称: all

特征:
- file: 字符串
- audio: 音频，采样率16000
- text: 字符串
- speaker_id: 整数
- chapter_id: 整数
- id: 字符串
分割:
- train.clean.100: 28539个样本，6627791685字节
- train.clean.360: 104014个样本，23927767570字节
- train.other.500: 148688个样本，31852502880字节
- validation.clean: 2703个样本，359505691字节
- validation.other: 2864个样本，337213112字节
- test.clean: 2620个样本，368449831字节
- test.other: 2939个样本，353231518字节
下载大小: 61357943031字节
数据集大小: 63826462287字节

AI搜集汇总

数据集介绍

构建方式

LibriSpeech数据集的构建基于LibriVox项目中的公开领域有声读物，由Vassil Panayotov在Daniel Povey的协助下精心制作。数据集包含约1000小时的16kHz英语朗读语音，经过细致的分割和对齐处理。训练部分被划分为三个子集，分别约为100小时、360小时和500小时，以适应不同用户的需求。通过自动语音识别模型对音频进行处理，计算单词错误率（WER），并根据WER将说话者分为‘clean’和‘other’两类，以确保数据的质量和多样性。

特点

LibriSpeech数据集以其高质量的语音数据和广泛的应用场景著称。数据集包含多种配置，如‘clean’和‘other’，以满足不同精度和复杂度的需求。此外，数据集提供了详细的元数据，包括音频文件路径、解码后的音频数组、采样率、文本转录、说话者ID和章节ID，便于研究人员进行深入分析和模型训练。数据集的分割设计合理，包括训练、验证和测试集，确保了模型评估的准确性和可靠性。

使用方法

LibriSpeech数据集主要用于自动语音识别（ASR）和音频分类任务。用户可以通过访问数据集的音频和文本字段，进行模型的训练和评估。数据集支持多种配置，用户可以根据需求选择‘clean’或‘other’配置进行实验。在使用过程中，建议优先访问样本索引，再获取‘audio’列数据，以提高处理效率。数据集的合理分割和丰富的元数据支持，使得其在语音识别领域的研究和应用中具有广泛的价值。

背景与挑战

背景概述

LibriSpeech数据集是由Vassil Panayotov在Daniel Povey等人的协助下创建的，旨在提供一个大规模的英语语音识别基准。该数据集包含约1000小时的16kHz阅读英语语音，源自LibriVox项目中的有声读物。通过精心分割和校准，LibriSpeech数据集已成为自动语音识别（ASR）领域的重要资源，推动了语音识别技术的进步。其创建时间可追溯至2015年，主要研究人员包括Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur，他们的工作显著提升了语音识别模型的性能和鲁棒性。

当前挑战

LibriSpeech数据集在构建过程中面临多项挑战。首先，数据来源多样，需确保音频质量的一致性和可靠性。其次，语音识别任务本身具有复杂性，包括不同口音、背景噪音和语音变异等问题，这些都对模型的准确性提出了高要求。此外，数据集的分割和标注过程需要高度精确，以确保训练和测试集的平衡性和代表性。尽管如此，LibriSpeech数据集在推动语音识别技术发展方面发挥了重要作用，但其面临的挑战仍需进一步研究和解决。

常用场景

经典使用场景

LibriSpeech数据集在自动语音识别（ASR）领域中被广泛应用，其经典使用场景包括训练和评估语音识别模型。通过提供大量高质量的英语语音数据，该数据集使得研究人员能够开发和优化语音转文本系统，从而显著提升模型的准确性和鲁棒性。

实际应用

在实际应用中，LibriSpeech数据集被用于开发和测试语音识别系统，广泛应用于语音助手、语音翻译、语音搜索等领域。其高质量的语音数据和详细的标注信息，使得基于该数据集训练的模型在实际应用中表现出色，极大地提升了用户体验。

衍生相关工作

基于LibriSpeech数据集，许多相关研究工作得以展开，包括但不限于语音识别模型的改进、多语言语音识别系统的开发以及语音数据的增强技术。这些研究不仅推动了语音识别技术的发展，也为其他语音相关领域的研究提供了宝贵的数据资源和方法论支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

OpenStreetMap (OSM)

OpenStreetMap (OSM) 是一个由志愿者创建和维护的全球性地图数据集。它包含了详细的地理信息，如道路、建筑物、水体、公园等。数据集以开放数据的形式提供，允许用户自由使用、修改和分享。

www.openstreetmap.org 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录