language-and-voice-lab/malromur_asr

Name: language-and-voice-lab/malromur_asr
Creator: language-and-voice-lab
Published: 2023-02-24 22:13:56
License: 暂无描述

Hugging Face2023-02-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/language-and-voice-lab/malromur_asr

下载链接

链接失效反馈

官方服务：

资源简介：

Málrómur语料库是一个开放的、经过手动验证的冰岛语语音语料库。该语料库的录音是在2011年至2012年期间由雷克雅未克大学和冰岛语言技术中心与Google合作收集的。数据集包含来自563名个体的语音样本，总时长为152小时，其中108,568个语音样本被认为是有效的。数据集分为训练、验证和测试三个部分，分别用于自动语音识别任务的模型训练和评估。数据集的主要用途是开发冰岛语的语音识别工具，并可用于其他语音技术的研究和开发。

The Málrómur Corpus is an open, manually validated Icelandic speech corpus. The recordings were collected between 2011 and 2012 via a partnership among the University of Reykjavík, the Icelandic Language Technology Center, and Google. The dataset comprises speech samples from 563 individuals, with an overall duration of 152 hours, of which 108,568 speech samples are deemed valid. It is split into three subsets: training, validation, and test, which are respectively utilized for model training and evaluation in automatic speech recognition (ASR) tasks. The main application of this corpus is to develop Icelandic speech recognition tools, and it can also serve as a resource for research and development of other speech technologies.

提供机构：

language-and-voice-lab

原始信息汇总

数据集概述

数据集名称

名称: Málrómur: A manually verified corpus of recorded Icelandic speech
别名: malromur_asr

数据集属性

语言: 冰岛语
许可证: CC-BY-4.0
多语言性: 单语种
数据集大小: 100K<n<1M
数据来源: 原始数据
标签:
- crowd-sourced icelandic
- málrómur
- icelandic speech
- malromur
- iceland
任务类别: automatic-speech-recognition

数据集结构

数据实例: 包含音频ID、音频路径、音频数组、采样率、说话者ID、性别、年龄、持续时间和标准化文本。
数据字段:
- audio_id: 音频段ID
- audio: 包含音频路径、解码音频数组和采样率的字典
- speaker_id: 说话者ID
- gender: 说话者性别
- age: 说话者年龄范围
- duration: 音频文件持续时间
- normalized_text: 标准化音频段转录
数据分割: 分为训练、验证和测试集，时长分别为119小时3分钟、13小时41分钟和3小时22分钟。

数据集用途

支持任务: 自动语音识别（ASR），用于训练模型将音频文件转录为书面文本。

数据集来源

收集机构: 雷克雅未克大学和冰岛语言技术中心与Google合作。
收集时间: 2011-2012年
数据收集方式: 使用Android G1智能手机记录563名个体的语音样本，总计152小时。

数据集验证

验证过程: 通过人工验证，最终确认108,568个语音样本可用。

数据集开放

开放目的: 用于开发冰岛语的语音识别器和其他语音技术工具。

数据集限制

许可证: 基于Creative Commons Attribution 4.0 International (CC BY 4.0)，不提供任何保证。

数据集引用

@inproceedings{steingrimsson2017malromur, title={Málrómur: A manually verified corpus of recorded Icelandic speech}, author={Steingrímsson, Steinþór and Guðnason, Jón and Helgadóttir, Sigrún and Rögnvaldsson, Eiríkur}, booktitle={Proceedings of the 21st Nordic Conference on Computational Linguistics}, pages={237--240}, year={2017} }

搜集汇总

数据集介绍

构建方式

在冰岛语语音识别研究领域，Málrómur语料库的构建体现了系统化的数据采集与验证流程。该数据集由雷克雅未克大学与冰岛语言技术中心联合谷歌于2011至2012年间合作创建，通过众包方式收集语音样本。数据采集采用Android G1智能手机，邀请志愿者朗读经过筛选的冰岛语句子，句子来源涵盖新闻标题、罕见音素组合、地名及人名等多样化文本，并经过拼写检查与随机排序以确保代表性。采集过程分为三个阶段，包括个人志愿参与、校园组织活动及企业机构访问，共涉及593名参与者，录制了超过12万条语音样本。随后，通过人工听辨验证，对录音进行静音修剪与内容校对，最终筛选出10.8万条高质量语音数据，构成这一经过手动校验的语音语料库。

特点

Málrómur语料库作为冰岛语语音资源，展现出多维度特征。该数据集包含约108,568条语音实例，总时长约136小时，划分为训练、验证与测试三个子集，分别对应119小时、3.5小时及13.7小时的语音数据。每条数据实例均提供音频文件及其对应文本转录，并附有说话人标识、性别、年龄范围及音频时长等元数据。语音内容覆盖广泛领域，包括新闻语句、专有名词及日常用语，确保了语言现象的多样性。数据经过严格的人工验证，保证了转录文本与语音内容的高度一致性，同时所有音频均以16kHz采样率保存，格式统一，便于直接用于自动语音识别模型的训练与评估。

使用方法

在语音技术应用中，Málrómur语料库为冰岛语自动语音识别研究提供了标准化的数据接口。用户可通过HuggingFace的datasets库直接加载该数据集，使用load_dataset函数并指定数据集名称即可获取完整语料。若需调用特定数据子集，可在函数中传入split参数，分别选择train、validation或test以加载相应部分。数据实例以字典形式呈现，包含音频路径、解码后的音频数组、采样率及归一化文本转录等字段，支持流式与非流式读取。研究人员可利用该数据训练端到端语音识别模型，以词错误率作为主要评估指标，推动冰岛语语音处理工具的开发与优化。

背景与挑战

背景概述

冰岛语作为北日耳曼语系的重要分支，其语音资源的稀缺性长期制约着相关语言技术的研究与发展。为应对这一挑战，雷克雅未克大学与冰岛语言技术中心于2011年至2012年间，联合谷歌共同发起了Almannarómur项目，旨在构建一个开放、经人工校验的冰岛语语音语料库——Málrómur。该语料库通过众包方式采集了563名发音人的语音样本，总计时长约152小时，内容涵盖新闻标题、稀有音素、地名及人名等多种文本类型。Málrómur的建立不仅为自动语音识别系统的开发提供了关键数据支撑，也显著推动了冰岛语在语音合成、语言建模等领域的应用研究，成为冰岛语语言技术发展的重要基石。

当前挑战

在构建Málrómur语料库的过程中，研究团队面临多重挑战。首先，冰岛语使用者群体相对有限，且语音数据收集需兼顾年龄、性别等人口学特征的多样性，这使得样本采集的广泛性与代表性难以平衡。其次，数据收集过程依赖志愿者使用Android G1智能手机进行录制，初期通过分散式招募效率低下，后期调整为组织化活动才逐步提升参与规模。此外，语音数据的后期校验尤为艰巨，需人工聆听超过12万条录音以剔除无效或错误样本，这一过程耗时数年且依赖多轮交叉验证，以确保语料标注的准确性。这些挑战共同凸显了低资源语言语音库建设中数据获取与质量控制的复杂性。

常用场景

经典使用场景

在冰岛语语音识别研究领域，Málrómur语料库作为一项珍贵的资源，其经典使用场景主要集中于训练和评估自动语音识别模型。该数据集通过精心划分的训练、验证和测试集，为研究者提供了标准化的基准环境，使得模型能够在纯净的冰岛语语音数据上进行端到端的训练与优化。其手动验证的转录文本确保了标注的高质量，从而有效支撑了从声学建模到语言模型融合的全流程研究，成为冰岛语ASR技术发展的核心数据基础。

衍生相关工作

围绕Málrómur语料库，学术界衍生出一系列经典研究工作。早期研究聚焦于利用该数据构建基础的冰岛语端到端ASR系统，并优化其在噪声环境下的性能。后续工作则扩展到多模态学习、低资源语音模型预训练以及方言适应性研究等领域。此外，该数据集也常被用作基准，用于比较不同神经网络架构在冰岛语上的效能，并催生了针对冰岛语语音特性的专用声学与语言模型，持续推动着北欧语言技术的前沿探索。

数据集最近研究