language-and-voice-lab/samromur_children
收藏数据集概述
数据集描述
- 名称: Samrómur Children Icelandic Speech 1.0
- 语言: 冰岛语
- 许可: CC-BY-4.0
- 数据集创建者: 众包
- 多语言性: 单语
- 标签: samromur, childrens speech, icelandic: iceland, icelandic children, icelandic kids, kids
- 任务类别: 自动语音识别
数据集摘要
Samrómur Children Corpus 包含超过 137,000 个由冰岛儿童发出的经过验证的语音记录,包括音频记录和元数据文件。该数据集是 Reykjavik 大学的 Language and Voice Lab (LVL) 与 Almannarómur, Center for Language Technology 合作进行的众包努力的结果。录音过程始于 2019 年 10 月,并持续至今。
支持的任务
- 自动语音识别: 该数据集可用于训练自动语音识别 (ASR) 模型。模型接收音频文件并将其转录为书面文本。主要的评估指标是词错误率 (WER)。
语言
音频为冰岛语。阅读提示来自多种来源,主要来自冰岛语 Gigaword 语料库和冰岛语 Web of Science。
数据集结构
数据实例
python { audio_id: 015652-0717240, audio: { path: /home/carlos/.cache/HuggingFace/datasets/downloads/extracted/2c6b0d82de2ef0dc0879732f726809cccbe6060664966099f43276e8c94b03f2/test/015652/015652-0717240.flac, array: array([ 0. , 0. , 0. , ..., -0.00311279, -0.0007019 , 0.00128174], dtype=float32), sampling_rate: 16000 }, speaker_id: 015652, gender: female, age: 11, duration: 4.179999828338623, normalized_text: eiginlega var hann hin unga rússneska bylting lifandi komin }
数据字段
audio_id(字符串) - 音频段的 IDaudio(datasets.Audio) - 包含音频路径、解码的音频数组和采样率的字典speaker_id(字符串) - 说话者的 IDgender(字符串) - 说话者的性别(男性或女性)age(字符串) - 说话者的年龄范围duration(float32) - 音频文件的持续时间(秒)normalized_text(字符串) - 音频段的规范化转录
数据分割
数据集分为训练、开发和测试部分。各部分的长度为:训练 = 127小时25分钟,测试 = 1小时50分钟,开发 = 1小时50分钟。
数据集创建
策划理由
在自动语音识别 (ASR) 领域,儿童的语音特别难以识别,因为儿童的解剖结构和语音产生技能的发展变化导致其高度可变性。因此,训练/开发/测试部分的筛选标准必须考虑儿童的年龄。
源数据
数据通过 https://samromur.is 网站收集,年龄范围为 4 至 17 岁。原始音频以 44.1 kHz 或 48 kHz 采样率收集为 *.wav 文件,然后下采样至 16 kHz 并转换为 *.flac 格式。
注释
提示从满足特定标准的语料库中提取,包括仅包含冰岛字母表中的字母,并列在 DIM: Database Icelandic Morphology 中。
个人和敏感信息
数据集包含捐赠其声音的人的信息。您同意不尝试确定此数据集中说话者的身份。
使用数据的考虑
数据集的社会影响
这是第一个冰岛儿童的 ASR 语料库。
偏见的讨论
- 话语是通过智能手机或网络应用录制的。
- 参与者自我报告了他们的年龄组、性别和母语。
- 参与者年龄在 4 至 17 岁之间。
- 数据集包含 137,597 个话语,来自 3,175 个说话者,总计 131 小时。
- 女性说话者的数据量为 73小时38分钟,男性说话者的数据量为 52小时26分钟,性别未知的说话者的数据量为 5小时2分钟。
- 女性说话者数量为 1,667,男性说话者数量为 1,412,性别未知的说话者数量为 96。
- 女性说话者的音频数量为 78,993,男性说话者的音频数量为 53,927,性别未知的说话者的音频数量为 4,677。
其他已知限制
"Samrómur Children: Icelandic Speech 21.09" 由 Reykjavik 大学的 Language and Voice Laboratory (LVL) 根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布,但没有任何保证,不包括隐含的保证或特定用途的适用性。
附加信息
数据集策展人
数据集由 Reykjavik 大学的 Language and Voice Lab (LVL) 与 Almannarómur, Center for Language Technology 合作进行众包努力的结果。录音过程始于 2019 年 10 月,并持续至今。数据集由 Carlos Daniel Hernández Mena 在 2021 年策展。
许可信息
引用信息
@misc{menasamromurchildren2021, title={Samrómur Children Icelandic Speech 1.0}, ldc_catalog_no={LDC2022S11}, DOI={https://doi.org/10.35111/frrj-qd60}, author={Hernández Mena, Carlos Daniel and Borsky, Michal and Mollberg, David Erik and Guðmundsson, Smári Freyr and Hedström, Staffan and Pálsson, Ragnar and Jónsson, Ólafur Helgi and Þorsteinsdóttir, Sunneva and Guðmundsdóttir, Jóhanna Vigdís and Magnúsdóttir, Eydís Huld and Þórhallsdóttir, Ragnheiður and Guðnason, Jón}, publisher={Reykjavík University}, journal={Linguistic Data Consortium, Philadelphia}, year={2021}, url={https://catalog.ldc.upenn.edu/LDC2022S11}, }
贡献
该项目由冰岛 2019-2023 年语言技术计划资助。该计划由冰岛教育和文化部资助,由 Almannarómur 管理和协调。数据集的验证由冰岛劳动局的学生暑期工作计划在 2020 年和 2021 年资助。特别感谢所有辛勤工作的暑期学生。




