Sidd2899/MyspeechASR

Name: Sidd2899/MyspeechASR
Creator: Sidd2899
Published: 2022-09-01 12:36:24
License: 暂无描述

Hugging Face2022-09-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Sidd2899/MyspeechASR

下载链接

链接失效反馈

官方服务：

资源简介：

LibriSpeech是一个包含约1000小时16kHz英语语音的语料库，数据来源于LibriVox项目的有声读物，并经过精心分段和对齐。该数据集主要用于自动语音识别（ASR）和音频分类任务，支持模型训练和评估。数据集分为clean和other两种配置，分别代表较低和较高单词错误率（WER）的语音数据。数据集由Vassil Panayotov和Daniel Povey等人创建，采用CC BY 4.0许可证。

提供机构：

Sidd2899

原始信息汇总

数据集概述

数据集描述

名称: LibriSpeech
语言: 英语
许可证: CC BY 4.0
多语言性: 单语种
论文ID: librispeech-1
大小类别: 100K<n<1M
源数据: 原始数据
任务类别: 自动语音识别, 音频分类
任务ID: 说话人识别

数据集摘要

LibriSpeech是一个包含约1000小时16kHz的英语朗读语音语料库，由Vassil Panayotov在Daniel Povey的帮助下准备。数据来源于LibriVox项目的朗读有声书，并经过仔细分割和校准。

支持的任务和排行榜

自动语音识别, 音频说话人识别: 该数据集可用于训练自动语音识别（ASR）模型。模型接收音频文件并将其转录为书面文本。最常见的评估指标是词错误率（WER）。任务在Hugging Face上有活跃的排行榜，位于https://huggingface.co/spaces/huggingface/hf-speech-bench。

语言

音频为英语。数据集有两个配置：clean和other。根据WER对语料库中的说话人进行排名，并大致分为两部分，WER较低的说话人被标记为“clean”，WER较高的说话人被标记为“other”。

数据集结构

数据实例

一个典型的数据点包括音频文件的路径（通常称为file）及其转录（称为text）。还提供了有关说话人和包含转录的章节的额外信息。

数据字段

file: 下载的音频文件的路径，格式为.flac。
audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
text: 音频文件的转录。
id: 数据样本的唯一ID。
speaker_id: 说话人的唯一ID。
chapter_id: 包含转录的有声书章节的ID。

数据分割

训练部分的数据集被分为三个子集，分别约为100小时、360小时和500小时。通过计算自动转录的词错误率（WER）对语料库中的说话人进行排名，并大致分为两部分，WER较低的说话人被标记为“clean”，WER较高的说话人被标记为“other”。

数据集创建

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。

额外信息

数据集策展人

数据集最初由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建。

许可证信息

CC BY 4.0

引用信息

@inproceedings{panayotov2015librispeech, title={Myspeech: an ASR corpus based on public domain audio books}, author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev}, booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on}, pages={5206--5210}, year={2015}, organization={IEEE} }

贡献

感谢@patrickvonplaten添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集