five

language-and-voice-lab/althingi_asr

收藏
Hugging Face2023-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/language-and-voice-lab/althingi_asr
下载链接
链接失效反馈
官方服务:
资源简介:
Althingi Parliamentary Speech数据集包含冰岛议会的约542小时的录音及其对应的转录文本、发音词典和两个语言模型。该数据集由Reykjavik大学的ASR for Althingi项目于2016年收集,旨在开发一个自动语音识别(ASR)系统,以替代手动转录议会演讲的过程。数据集分为训练集、开发集和评估集,音频文件为单声道16位mp3格式,转录文本为UTF-8编码的纯文本。数据集支持的任务是自动语音识别,音频语言为冰岛语。

The Althingi Parliamentary Speech Dataset contains approximately 542 hours of audio recordings from the Icelandic Parliament, alongside their corresponding transcriptions, pronunciation dictionaries, and two language models. Collected in 2016 by the ASR for Althingi project at the University of Reykjavik, this dataset was developed to build an automatic speech recognition (ASR) system that replaces the manual transcription workflow for parliamentary speeches. The dataset is split into training, development, and evaluation sets. Audio files are stored in monaural 16-bit MP3 format, while transcriptions are UTF-8 encoded plain text. The supported task of this dataset is automatic speech recognition, and the language of the audio content is Icelandic.
提供机构:
language-and-voice-lab
原始信息汇总

数据集概述

数据集名称

  • 名称: Althingi Parliamentary Speech
  • 别名: althingi_asr

数据集描述

  • 摘要: 包含约542小时的冰岛议会Althingi的录音,以及相应的转录、发音词典和两个语言模型。演讲时间跨度为2005至2016年。
  • 目的: 用于开发自动语音识别(ASR)系统,以替代手动转录议会演讲的过程。

数据集内容

  • 语言: 冰岛语
  • 类型: 单语种
  • 规模: 100K<n<1M
  • 来源: 原始数据
  • 标签: 冰岛语, 议会演讲, 议会, Althingi
  • 任务类别: 自动语音识别

数据集结构

  • 数据实例: 包含音频ID、音频路径、说话人ID、音频时长和标准化文本转录。
  • 数据字段: 包括音频ID、音频数据、说话人ID、音频时长和标准化文本。
  • 数据分割: 分为训练、评估和测试集,具体时长分别为514小时29分钟、13小时52分钟和14小时2分钟。

使用示例

python from datasets import load_dataset althingi_asr = load_dataset("language-and-voice-lab/althingi_asr", split="validation")

支持的任务

  • 自动语音识别: 用于训练模型将音频文件转录为书面文本。

许可证

  • 许可证: CC-BY-4.0

引用信息

@misc{helgadottiralthingi2021, title={Althingi Parliamentary Speech}, ldc_catalog_no={LDC2021S01}, DOI={https://doi.org/10.35111/695b-6697}, author={Helgadóttir, Inga Rún and Kjaran, Róbert and Nikulásdóttir, Anna Björk and Guðnason, Jón}, publisher={Reykjavík University} journal={Linguistic Data Consortium, Philadelphia}, year={2021}, url={https://catalog.ldc.upenn.edu/LDC2021S01}, }

贡献者

  • 支持: Althingi的信息和出版部门
  • 感谢: Solveig K. Jónsdóttir, Þorbjörg Árnadóttir, Ingvi Stígsson
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是冰岛议会(Althingi)2005-2016年的语音识别数据集,包含542小时录音及文本,用于训练ASR系统。数据包含197位发言人的演讲,分为训练/验证/测试集,并附带发音词典和语言模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作