five

tiro-is/kennsluromur

收藏
Hugging Face2022-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tiro-is/kennsluromur
下载链接
链接失效反馈
官方服务:
资源简介:
KENNSLURÓMUR - ICELANDIC LECTURES数据集是一个包含冰岛大学和雷克雅未克大学课堂讲座的音频记录及其对应分段转录文本的集合,用于训练语音识别模型。音频文件由讲师提供,经过冰岛语音识别器转录,人工校对,最后由校对员验证。数据集包含51小时的音频,分为171个讲座,来自11位讲师。讲座主题涵盖语言学、计算机科学、劳动市场经济、工程、法律研究、商业智能、心理学和体育科学等多个大学级别学科。数据集的结构包括SPEAKERS.tsv、LECTURES.tsv、DOCS/目录、LICENSE.txt、prerp_for_training.py脚本以及每个讲师的目录,其中包含讲座的音频文件和转录文本。转录文本被分割为1到40秒的段落,并标记为训练、开发或测试集。音频文件的采样率为16000 Hz,格式为16位PCM RIFF WAVE,语言为冰岛语。转录文本中包含特殊注释,如[UNK]表示无法理解的部分,[HIK: <stubs>]表示犹豫,[<IPA sym>]表示单独的IPA音标。数据集采用CC BY 4.0许可证发布。
提供机构:
tiro-is
原始信息汇总

数据集概述

数据集名称

KENNSLURÓMUR - ICELANDIC LECTURES

数据集内容

  • 音频记录与文本对应:包含51小时的音频记录及其对应的文本,来自Reykjavik University和University of Iceland的课堂讲座。
  • 讲座数量与分布:共有171个讲座,由11位讲师提供。

讲座主题

  • 语言学:15个讲座,1位讲师,7.12小时
  • 计算机科学:33个讲座,3位讲师,15.3小时
  • 劳动市场经济学:13个讲座,1位讲师,1.91小时
  • 工程学:64个讲座,3位讲师,11.3小时
  • 法律研究:25个讲座,2位讲师,7.52小时
  • 商业智能:1个讲座,1位讲师,19.2分钟
  • 心理学:10个讲座,1位讲师,3.03小时
  • 体育科学:10个讲座,1位讲师,4.79小时

数据集结构

  • SPEAKERS.tsv:列出讲师及其ID。
  • LECTURES.tsv:列出所有讲座。
  • DOCS/transcription_guidelines_is.txt:冰岛语转录指南。
  • LICENSE.txt:许可证描述。
  • prerp_for_training.py:用于KALDI的数据准备脚本示例。
  • <SPK-ID>/<LECTURE-ID>.wav:讲座的音频记录。
  • <SPK-ID>/<LECTURE-ID>.txt:讲座的文本转录,按1至40秒分段。

格式与特殊标注

  • 采样率:16000 Hz
  • 音频格式:16位PCM RIFF WAVE
  • 语言:冰岛语
  • 特殊标注:包括[UNK](难以理解的背景噪音)、[HIK: <stubs>](犹豫)和[<IPA sym>](IPA音标)。

许可证

  • CC BY 4.0:允许复制、重新分发、改编和商业使用,需适当引用并提供许可证链接。

资金支持

  • 语言技术计划:2019-2023年冰岛语技术计划,由冰岛教育、科学和文化部资助。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作