Sidd2899/MyspeechASR
收藏数据集概述
数据集描述
- 名称: LibriSpeech
- 语言: 英语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 论文ID: librispeech-1
- 大小类别: 100K<n<1M
- 源数据: 原始数据
- 任务类别: 自动语音识别, 音频分类
- 任务ID: 说话人识别
数据集摘要
LibriSpeech是一个包含约1000小时16kHz的英语朗读语音语料库,由Vassil Panayotov在Daniel Povey的帮助下准备。数据来源于LibriVox项目的朗读有声书,并经过仔细分割和校准。
支持的任务和排行榜
- 自动语音识别, 音频说话人识别: 该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。最常见的评估指标是词错误率(WER)。任务在Hugging Face上有活跃的排行榜,位于https://huggingface.co/spaces/huggingface/hf-speech-bench。
语言
音频为英语。数据集有两个配置:clean和other。根据WER对语料库中的说话人进行排名,并大致分为两部分,WER较低的说话人被标记为“clean”,WER较高的说话人被标记为“other”。
数据集结构
数据实例
一个典型的数据点包括音频文件的路径(通常称为file)及其转录(称为text)。还提供了有关说话人和包含转录的章节的额外信息。
数据字段
file: 下载的音频文件的路径,格式为.flac。audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。text: 音频文件的转录。id: 数据样本的唯一ID。speaker_id: 说话人的唯一ID。chapter_id: 包含转录的有声书章节的ID。
数据分割
训练部分的数据集被分为三个子集,分别约为100小时、360小时和500小时。通过计算自动转录的词错误率(WER)对语料库中的说话人进行排名,并大致分为两部分,WER较低的说话人被标记为“clean”,WER较高的说话人被标记为“other”。
数据集创建
个人和敏感信息
数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。
额外信息
数据集策展人
数据集最初由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建。
许可证信息
CC BY 4.0
引用信息
@inproceedings{panayotov2015librispeech, title={Myspeech: an ASR corpus based on public domain audio books}, author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev}, booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on}, pages={5206--5210}, year={2015}, organization={IEEE} }
贡献
感谢@patrickvonplaten添加此数据集。



