five

Sidd2899/MyspeechASR

收藏
Hugging Face2022-09-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Sidd2899/MyspeechASR
下载链接
链接失效反馈
官方服务:
资源简介:
LibriSpeech是一个包含约1000小时16kHz英语语音的语料库,数据来源于LibriVox项目的有声读物,并经过精心分段和对齐。该数据集主要用于自动语音识别(ASR)和音频分类任务,支持模型训练和评估。数据集分为clean和other两种配置,分别代表较低和较高单词错误率(WER)的语音数据。数据集由Vassil Panayotov和Daniel Povey等人创建,采用CC BY 4.0许可证。
提供机构:
Sidd2899
原始信息汇总

数据集概述

数据集描述

  • 名称: LibriSpeech
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 论文ID: librispeech-1
  • 大小类别: 100K<n<1M
  • 源数据: 原始数据
  • 任务类别: 自动语音识别, 音频分类
  • 任务ID: 说话人识别

数据集摘要

LibriSpeech是一个包含约1000小时16kHz的英语朗读语音语料库,由Vassil Panayotov在Daniel Povey的帮助下准备。数据来源于LibriVox项目的朗读有声书,并经过仔细分割和校准。

支持的任务和排行榜

  • 自动语音识别, 音频说话人识别: 该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。最常见的评估指标是词错误率(WER)。任务在Hugging Face上有活跃的排行榜,位于https://huggingface.co/spaces/huggingface/hf-speech-bench。

语言

音频为英语。数据集有两个配置:cleanother。根据WER对语料库中的说话人进行排名,并大致分为两部分,WER较低的说话人被标记为“clean”,WER较高的说话人被标记为“other”。

数据集结构

数据实例

一个典型的数据点包括音频文件的路径(通常称为file)及其转录(称为text)。还提供了有关说话人和包含转录的章节的额外信息。

数据字段

  • file: 下载的音频文件的路径,格式为.flac。
  • audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
  • text: 音频文件的转录。
  • id: 数据样本的唯一ID。
  • speaker_id: 说话人的唯一ID。
  • chapter_id: 包含转录的有声书章节的ID。

数据分割

训练部分的数据集被分为三个子集,分别约为100小时、360小时和500小时。通过计算自动转录的词错误率(WER)对语料库中的说话人进行排名,并大致分为两部分,WER较低的说话人被标记为“clean”,WER较高的说话人被标记为“other”。

数据集创建

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。

额外信息

数据集策展人

数据集最初由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建。

许可证信息

CC BY 4.0

引用信息

@inproceedings{panayotov2015librispeech, title={Myspeech: an ASR corpus based on public domain audio books}, author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev}, booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on}, pages={5206--5210}, year={2015}, organization={IEEE} }

贡献

感谢@patrickvonplaten添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作