language-and-voice-lab/raddromur_asr
收藏Hugging Face2024-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/language-and-voice-lab/raddromur_asr
下载链接
链接失效反馈官方服务:
资源简介:
Raddrómur Icelandic Speech 22.09(简称Raddrómur Corpus)是由雷克雅未克大学语言与语音实验室(LVL)于2022年创建的冰岛语语料库。该语料库主要由来自RÚV(ruv.is)的广播播客组成。数据集包含13030个语音片段,总时长为49小时09分钟,所有数据仅分为训练集。数据集的注释是通过机器生成的,使用了MAFIA对齐器进行强制对齐。数据集还包含一个元数据文件,其中包含每个音频片段的标准化转录和其他相关信息。该数据集主要用于自动语音识别任务,模型需要将音频文件转录为文本,常用的评估指标是词错误率(WER)。
Raddrómur Icelandic Speech 22.09 (abbreviated as Raddrómur Corpus) is an Icelandic language corpus created by the Language and Speech Laboratory (LVL) of the University of Reykjavík in 2022. The corpus is mainly composed of broadcast podcasts sourced from RÚV (ruv.is). The dataset contains 13,030 speech segments with a total duration of 49 hours and 9 minutes, and all data is exclusively split into the training set. The annotations of the dataset are machine-generated, using the MAFIA aligner for forced alignment. The dataset also includes a metadata file containing the standardized transcriptions of each audio segment and other relevant information. This dataset is primarily used for automatic speech recognition (ASR) tasks, where models are required to transcribe audio files into text, and the commonly used evaluation metric is Word Error Rate (WER).
提供机构:
language-and-voice-lab
原始信息汇总
数据集概述
数据集名称
- 名称: Raddrómur Icelandic Speech 22.09
- 简称: Raddrómur Corpus
数据集描述
- 创建者: 语言与声音实验室(LVL),雷克雅未克大学(RU)
- 创建年份: 2022
- 数据来源: 主要来源于RÚV(ruv.is)的广播播客
- 语言: 冰岛语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 源数据: 原始数据
- 标签: 冰岛语播客, 自发冰岛语, 强制对齐, ruv.is, mafia对齐器
- 任务类别: 自动语音识别
数据集结构
- 数据实例: 包含音频ID、音频路径、音频数组、采样率、播客ID、段号、开始时间、持续时间、mafia分数和标准化文本。
- 数据字段: 音频ID、音频、播客ID、段号、持续时间、mafia分数、标准化文本。
- 数据分割: 仅包含训练集,总时长49小时09分钟,共13030个语音片段。
数据集创建
- 筛选理由: 用于自动语音识别的冰岛语语料库,通过inaSpeechSegmenter自动分割,使用MAFIA对齐器进行强制对齐。
- 源数据: 包含多个冰岛语广播播客,如Rokkland、A Tonsvidinu等。
- 注释: 通过MAFIA对齐器自动分割和对齐,使用SRILM和NVIDIA-NeMo进行语音识别。
使用数据注意事项
- 社会影响: 为数不多的包含自发冰岛语的ASR语料库之一。
- 偏见讨论: 使用MAFIA分数评估转录质量,分数接近零表示高质量转录。
- 其他已知限制: 数据集根据CC-BY-4.0许可证发布,不保证适用性和特定目的的适用性。
附加信息
- 数据集管理员: Carlos Daniel Hernández Mena
- 许可证信息: CC-BY-4.0
- 引用信息: 提供详细的引用格式和URL。
- 贡献: 由冰岛语技术计划2019-2022资助,特别感谢RÚV的播客和Aron Berg。



