five

Ericwang/samromur_children_test

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Ericwang/samromur_children_test
下载链接
链接失效反馈
官方服务:
资源简介:
Samrómur儿童冰岛语音语料库1.0版包含超过137,000条由冰岛儿童朗读的音频记录和元数据文件。该数据集由雷克雅未克大学的语言与语音实验室(LVL)与Almannarómur语言技术中心合作,通过众包方式收集数据,主要用于自动语音识别(ASR)任务。数据集分为训练、验证和测试三个部分,音频语言为冰岛语。数据集的创建目的是为了解决儿童语音识别中的高变异性问题。

Samrómur Icelandic Children's Speech Corpus Version 1.0 contains over 137,000 audio recordings and metadata files read by Icelandic children. This dataset was crowdsourced and co-developed by the Language and Speech Laboratory (LVL) at Reykjavík University and the Almannarómur Language Technology Center, and is primarily intended for automatic speech recognition (ASR) tasks. The corpus is divided into three subsets: training, validation, and test, with all audio content in Icelandic. The dataset was created to address the high variability problem in children's speech recognition.
提供机构:
Ericwang
原始信息汇总

数据集概述

数据集描述

  • 名称: Samrómur Children Icelandic Speech 1.0
  • 语言: 冰岛语
  • 许可证: CC-BY-4.0
  • 数据集大小: 100K<n<1M
  • 源数据: 原始数据
  • 标签: samromur, childrens speech, icelandic: iceland, icelandic children, icelandic kids, kids
  • 任务类别: 自动语音识别

数据集摘要

Samrómur Children Corpus 包含超过 137,000 个由冰岛儿童发出的经过验证的语音记录,包括音频记录和元数据文件。该数据集是由雷克雅未克大学的语言和语音实验室(LVL)与 Almannarómur 合作,通过众包努力收集的。

支持的任务

  • 自动语音识别: 该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。主要的评估指标是词错误率(WER)。

语言

音频为冰岛语。阅读提示来自多种来源,主要来自冰岛语 Gigaword 语料库和冰岛语网络科学。

数据集结构

数据实例

python { audio_id: 015652-0717240, audio: { path: /path/to/audio.flac, array: array([...]), sampling_rate: 16000 }, speaker_id: 015652, gender: female, age: 11, duration: 4.18, normalized_text: eiginlega var hann hin unga rússneska bylting lifandi komin }

数据字段

  • audio_id (字符串): 音频片段的ID
  • audio (datasets.Audio): 包含音频路径、解码的音频数组和采样率的字典
  • speaker_id (字符串): 说话者的ID
  • gender (字符串): 说话者的性别(男性或女性)
  • age (字符串): 说话者的年龄范围
  • duration (float32): 音频文件的持续时间(秒)
  • normalized_text (字符串): 音频片段的规范化转录文本

数据分割

数据集分为训练、验证和测试部分。各部分的时长分别为:训练集 127小时25分钟,测试集和验证集各1小时50分钟。

数据集创建

策划理由

在自动语音识别(ASR)领域,儿童的语音因其发展变化导致的高变异性而特别难以识别。因此,训练/验证/测试部分的筛选标准必须考虑儿童的年龄。

源数据

数据通过网站 https://samromur.is 收集,音频文件最初为 44.1 kHz 或 48 kHz 的 *.wav 文件,后被下采样至 16 kHz 并转换为 *.flac 格式。每个录音包含一个从脚本中读取的句子。

注释

提示从满足特定标准的语料库中提取,包括仅包含冰岛语字母中的字母,并列在冰岛语形态数据库(DIM)中。

个人和敏感信息

数据集包含捐赠声音的人的信息。使用者同意不尝试确定此数据集中说话者的身份。

使用数据的考虑

数据集的社会影响

这是第一个冰岛儿童的ASR语料库。

偏见讨论

  • 语音由智能手机或网页应用录制。
  • 参与者自我报告年龄、性别和母语。
  • 数据集包含4至17岁儿童的语音。

其他已知限制

数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布,但没有任何保证。

附加信息

数据集策展人

数据集由雷克雅未克大学的语言和语音实验室(LVL)与 Almannarómur 合作,通过众包努力收集。

许可证信息

CC-BY-4.0

引用信息

@misc{menasamromurchildren2021, title={Samrómur Children Icelandic Speech 1.0}, ldc_catalog_no={LDC2022S11}, DOI={https://doi.org/10.35111/frrj-qd60}, author={Hernández Mena, Carlos Daniel and Borsky, Michal and Mollberg, David Erik and Guðmundsson, Smári Freyr and Hedström, Staffan and Pálsson, Ragnar and Jónsson, Ólafur Helgi and Þorsteinsdóttir, Sunneva and Guðmundsdóttir, Jóhanna Vigdís and Magnúsdóttir, Eydís Huld and Þórhallsdóttir, Ragnheiður and Guðnason, Jón}, publisher={Reykjavík University} journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2022S11}, }

贡献

该项目由冰岛教育和文化部资助的语言技术计划(2019-2023)资助。数据集的验证由冰岛劳动局的暑期学生工作计划资助。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作