language-and-voice-lab/samromur_children

Name: language-and-voice-lab/samromur_children
Creator: language-and-voice-lab
Published: 2023-10-15 16:02:44
License: 暂无描述

Hugging Face2023-10-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/language-and-voice-lab/samromur_children

下载链接

链接失效反馈

官方服务：

资源简介：

Samrómur儿童语料库包含冰岛儿童的语音录音和元数据文件，记录了参与者朗读的提示。该语料库由雷克雅未克大学的语言与语音实验室（LVL）与Almannarómur语言技术中心合作通过众包方式收集，录音过程从2019年10月开始，持续到2021年9月。数据集包含超过137,000条经过验证的语音记录，用于自动语音识别（ASR）任务。数据集分为训练集、验证集和测试集，音频为冰岛语，提示文本来自多种来源，包括冰岛语Gigaword语料库和冰岛科学网。

Samrómur Children’s Speech Corpus contains audio recordings and metadata files of Icelandic children, as well as the prompts that participants read aloud. This corpus was crowdsourced by the Language and Speech Laboratory (LVL) at the University of Reykjavík in collaboration with the Almannarómur Language Technology Center, with data collection lasting from October 2019 to September 2021. The dataset includes over 137,000 validated speech recordings intended for automatic speech recognition (ASR) tasks. It is divided into training, validation and test sets, with audio content in Icelandic. The prompt texts are derived from multiple sources including the Icelandic Gigaword Corpus and Icelandic Science Web.

提供机构：

language-and-voice-lab

原始信息汇总

数据集概述

数据集描述

名称: Samrómur Children Icelandic Speech 1.0
语言: 冰岛语
许可: CC-BY-4.0
数据集创建者: 众包
多语言性: 单语
标签: samromur, childrens speech, icelandic: iceland, icelandic children, icelandic kids, kids
任务类别: 自动语音识别

数据集摘要

Samrómur Children Corpus 包含超过 137,000 个由冰岛儿童发出的经过验证的语音记录，包括音频记录和元数据文件。该数据集是 Reykjavik 大学的 Language and Voice Lab (LVL) 与 Almannarómur, Center for Language Technology 合作进行的众包努力的结果。录音过程始于 2019 年 10 月，并持续至今。

支持的任务

自动语音识别: 该数据集可用于训练自动语音识别 (ASR) 模型。模型接收音频文件并将其转录为书面文本。主要的评估指标是词错误率 (WER)。

语言

音频为冰岛语。阅读提示来自多种来源，主要来自冰岛语 Gigaword 语料库和冰岛语 Web of Science。

数据集结构

数据实例

python { audio_id: 015652-0717240, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/2c6b0d82de2ef0dc0879732f726809cccbe6060664966099f43276e8c94b03f2/test/015652/015652-0717240.flac, array: array([ 0. , 0. , 0. , ..., -0.00311279, -0.0007019 , 0.00128174], dtype=float32), sampling_rate: 16000 }, speaker_id: 015652, gender: female, age: 11, duration: 4.179999828338623, normalized_text: eiginlega var hann hin unga rússneska bylting lifandi komin }

数据字段

audio_id (字符串) - 音频段的 ID
audio (datasets.Audio) - 包含音频路径、解码的音频数组和采样率的字典
speaker_id (字符串) - 说话者的 ID
gender (字符串) - 说话者的性别（男性或女性）
age (字符串) - 说话者的年龄范围
duration (float32) - 音频文件的持续时间（秒）
normalized_text (字符串) - 音频段的规范化转录

数据分割

数据集分为训练、开发和测试部分。各部分的长度为：训练 = 127小时25分钟，测试 = 1小时50分钟，开发 = 1小时50分钟。

数据集创建

策划理由

在自动语音识别 (ASR) 领域，儿童的语音特别难以识别，因为儿童的解剖结构和语音产生技能的发展变化导致其高度可变性。因此，训练/开发/测试部分的筛选标准必须考虑儿童的年龄。

源数据

数据通过 https://samromur.is 网站收集，年龄范围为 4 至 17 岁。原始音频以 44.1 kHz 或 48 kHz 采样率收集为 *.wav 文件，然后下采样至 16 kHz 并转换为 *.flac 格式。

注释

提示从满足特定标准的语料库中提取，包括仅包含冰岛字母表中的字母，并列在 DIM: Database Icelandic Morphology 中。

个人和敏感信息

数据集包含捐赠其声音的人的信息。您同意不尝试确定此数据集中说话者的身份。

使用数据的考虑

数据集的社会影响

这是第一个冰岛儿童的 ASR 语料库。

偏见的讨论

话语是通过智能手机或网络应用录制的。
参与者自我报告了他们的年龄组、性别和母语。
参与者年龄在 4 至 17 岁之间。
数据集包含 137,597 个话语，来自 3,175 个说话者，总计 131 小时。
女性说话者的数据量为 73小时38分钟，男性说话者的数据量为 52小时26分钟，性别未知的说话者的数据量为 5小时2分钟。
女性说话者数量为 1,667，男性说话者数量为 1,412，性别未知的说话者数量为 96。
女性说话者的音频数量为 78,993，男性说话者的音频数量为 53,927，性别未知的说话者的音频数量为 4,677。

其他已知限制

"Samrómur Children: Icelandic Speech 21.09" 由 Reykjavik 大学的 Language and Voice Laboratory (LVL) 根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布，但没有任何保证，不包括隐含的保证或特定用途的适用性。

附加信息

数据集策展人

数据集由 Reykjavik 大学的 Language and Voice Lab (LVL) 与 Almannarómur, Center for Language Technology 合作进行众包努力的结果。录音过程始于 2019 年 10 月，并持续至今。数据集由 Carlos Daniel Hernández Mena 在 2021 年策展。

许可信息

CC-BY-4.0

引用信息

@misc{menasamromurchildren2021, title={Samrómur Children Icelandic Speech 1.0}, ldc_catalog_no={LDC2022S11}, DOI={https://doi.org/10.35111/frrj-qd60}, author={Hernández Mena, Carlos Daniel and Borsky, Michal and Mollberg, David Erik and Guðmundsson, Smári Freyr and Hedström, Staffan and Pálsson, Ragnar and Jónsson, Ólafur Helgi and Þorsteinsdóttir, Sunneva and Guðmundsdóttir, Jóhanna Vigdís and Magnúsdóttir, Eydís Huld and Þórhallsdóttir, Ragnheiður and Guðnason, Jón}, publisher={Reykjavík University}, journal={Linguistic Data Consortium, Philadelphia}, year={2021}, url={https://catalog.ldc.upenn.edu/LDC2022S11}, }

贡献

该项目由冰岛 2019-2023 年语言技术计划资助。该计划由冰岛教育和文化部资助，由 Almannarómur 管理和协调。数据集的验证由冰岛劳动局的学生暑期工作计划在 2020 年和 2021 年资助。特别感谢所有辛勤工作的暑期学生。

搜集汇总

数据集介绍

构建方式

Samrómur Children语料库的构建，是基于雷克雅未克大学语言与语音实验室与Almannarómur语言技术中心的合作，采用众包方式收集了超过13.7万条冰岛儿童语音记录。该语料库的构建旨在为自动语音识别研究提供专门针对儿童语音的样本，涵盖了4至17岁年龄段的儿童，通过筛选出的阅读提示进行语音录制，并经过听者的手动验证以保证音频质量。

特点

该数据集的特点在于其专注于冰岛儿童的语音，为首个面向自动语音识别领域的冰岛儿童语音库。语料库中的语音记录涵盖了不同的年龄段和性别，但存在性别和年龄的分布不均。数据集采用了Creative Commons Attribution 4.0国际许可，允许用户在遵守许可协议的前提下自由使用和分享。所有语音数据均经过16kHz的降采样处理，并转换为FLAC格式，同时提供了详尽的元数据信息。

使用方法

使用Samrómur Children数据集时，用户可以通过Hugging Face的datasets库加载整个数据集或其特定的训练、验证、测试子集。每个语音记录包含音频文件路径、解码音频数组、采样率、说话者ID、性别、年龄、音频时长以及规范化的文本转录。用户可以根据需要加载特定子集，以用于自动语音识别模型的训练和评估。

背景与挑战

背景概述

Samrómur Children Icelandic Speech 1.0数据集是由雷克雅未克大学的语言与语音实验室（LVL）与Almannarómur语言技术中心合作，通过众包方式收集的冰岛语儿童语音数据集。自2019年10月起开始录音，至今仍在进行中。该数据集包含超过13.7万条经过验证的冰岛语儿童语音录音，旨在为自动语音识别（ASR）等领域的研究提供支持。作为首个冰岛语儿童ASR语料库，它对冰岛语的语音识别技术发展具有重要意义。

当前挑战

在研究领域中，儿童语音的高变异性使得其识别尤其困难，这主要由于儿童在解剖结构和发音技能上的发育变化。Samrómur Children数据集面临的挑战包括：确保数据集中不同年龄段和性别的平衡，以利于公平实验的进行；处理众包数据可能带来的质量控制和标注一致性问题；以及保护参与者隐私，避免通过语音识别确定说话者身份的风险。构建过程中，还需克服的技术挑战包括音频的采集、标注、以及确保音频质量和元数据的准确性。

常用场景

经典使用场景

在语音识别研究领域，Samrómur Children语音数据集的典型应用场景是训练自动语音识别（ASR）模型，尤其是针对儿童语音的识别。该数据集包含超过13.7万条由冰岛儿童朗读的音频记录，为模型提供了丰富的学习素材，有助于提升模型对儿童发音变异性高的语音识别准确性。

解决学术问题

Samrómur Children数据集解决了儿童语音识别中的关键学术问题，即在语音识别模型中准确捕捉儿童发音的变异性。由于儿童在发音和语言发展上的个体差异，传统语音识别模型往往难以适应。此数据集为研究提供了专门针对儿童语音的样本，有助于开发更具包容性和准确性的识别算法。

衍生相关工作

基于Samrómur Children数据集，学术界已衍生出一系列相关工作，包括对儿童语音特征的分析、儿童语音识别模型的性能评估，以及针对特定年龄段儿童语音识别的定制化算法开发。这些研究不仅推动了儿童语音识别技术的发展，也为相关领域的理论研究和应用探索提供了宝贵的资源和参考。

以上内容由遇见数据集搜集并总结生成