language-and-voice-lab/samromur_milljon
收藏Hugging Face2025-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/language-and-voice-lab/samromur_milljon
下载链接
链接失效反馈官方服务:
资源简介:
Samrómur Milljón 是一个冰岛语语音语料库,包含超过100万条经过自动语音识别系统验证的语音录音及其转录文本。这些录音和文本可用于训练自动语音识别模型。数据集根据说话人的性别和年龄分为多个子集。数据集的创建旨在为冰岛语言技术的研究和开发提供一个开源语音语料库。
Samrómur Milljón is an Icelandic speech corpus consisting of over one million speech recordings and their transcriptions, verified using various Automatic Speech Recognition (ASR) systems. These recordings and transcriptions can be used to train ASR models. The dataset is divided into subsets based on speaker demographics such as gender and age. The creation of this dataset aims to provide an open-source speech corpus for research and development in Icelandic Language Technology.
提供机构:
language-and-voice-lab
原始信息汇总
数据集概述
数据集名称
- 名称: Samrómur Milljón, Audio and Transcriptions
- 别名: samromur_milljon
数据集属性
- 语言: 冰岛语 (monolingual)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 1M<n<10M
- 来源: 原始数据
- 标签: crowd-sourced icelandic, samrómur, icelandic speech, samromur, iceland
- 任务类别: automatic-speech-recognition
数据集描述
- 概述: Samrómur Milljón 是一个包含1,002,157个语音记录(总计967小时)的数据集,这些记录是通过多种自动语音识别(ASR)系统自动验证的。数据集包含音频文件及其对应的转录文本。
- 支持任务: 自动语音识别(ASR),用于训练模型将音频文件转录为书面文本。
数据集结构
- 数据实例: 每个实例包含音频ID、音频文件路径、说话者ID、性别、年龄、音频时长、验证使用的ASR系统及标准化文本转录。
- 数据字段: 包括音频ID、音频信息、说话者ID、性别、年龄、音频时长、验证方式和标准化文本。
- 数据分割: 数据集分为7个部分,根据说话者的性别和年龄进行划分。
数据集创建
- 采集理由: 创建一个开放源代码的语音语料库,以促进冰岛语言技术的研究和开发。
- 源数据: 语音数据通过智能手机或网页应用收集,每个录音包含一个读出的句子。
- 注释: 使用多种ASR系统自动验证音频文件,如果任何系统的转录与参考转录完全匹配,则认为该录音已验证。
使用数据集的考虑
- 社会影响: 该项目旨在构建一个大规模的冰岛语语音语料库,用于自动语音识别研究。
- 偏见讨论: 数据集包含从4岁到90岁的参与者,性别和年龄信息由参与者自我报告。
- 其他已知限制: 数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0) License发布,但不提供任何保证。
附加信息
- 数据集管理员: Carlos Daniel Hernández Mena,2023年在Reykjavik大学的Language and Voice Laboratory进行。
- 许可证信息: CC-BY-4.0
- 引用信息: 参考提供的引用格式。
- 贡献: 该项目由冰岛语言技术计划2019-2023资助。



