Ericwang/samromur_children_test
收藏数据集概述
数据集描述
- 名称: Samrómur Children Icelandic Speech 1.0
- 语言: 冰岛语
- 许可证: CC-BY-4.0
- 数据集大小: 100K<n<1M
- 源数据: 原始数据
- 标签: samromur, childrens speech, icelandic: iceland, icelandic children, icelandic kids, kids
- 任务类别: 自动语音识别
数据集摘要
Samrómur Children Corpus 包含超过 137,000 个由冰岛儿童发出的经过验证的语音记录,包括音频记录和元数据文件。该数据集是由雷克雅未克大学的语言和语音实验室(LVL)与 Almannarómur 合作,通过众包努力收集的。
支持的任务
- 自动语音识别: 该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。主要的评估指标是词错误率(WER)。
语言
音频为冰岛语。阅读提示来自多种来源,主要来自冰岛语 Gigaword 语料库和冰岛语网络科学。
数据集结构
数据实例
python { audio_id: 015652-0717240, audio: { path: /path/to/audio.flac, array: array([...]), sampling_rate: 16000 }, speaker_id: 015652, gender: female, age: 11, duration: 4.18, normalized_text: eiginlega var hann hin unga rússneska bylting lifandi komin }
数据字段
audio_id(字符串): 音频片段的IDaudio(datasets.Audio): 包含音频路径、解码的音频数组和采样率的字典speaker_id(字符串): 说话者的IDgender(字符串): 说话者的性别(男性或女性)age(字符串): 说话者的年龄范围duration(float32): 音频文件的持续时间(秒)normalized_text(字符串): 音频片段的规范化转录文本
数据分割
数据集分为训练、验证和测试部分。各部分的时长分别为:训练集 127小时25分钟,测试集和验证集各1小时50分钟。
数据集创建
策划理由
在自动语音识别(ASR)领域,儿童的语音因其发展变化导致的高变异性而特别难以识别。因此,训练/验证/测试部分的筛选标准必须考虑儿童的年龄。
源数据
数据通过网站 https://samromur.is 收集,音频文件最初为 44.1 kHz 或 48 kHz 的 *.wav 文件,后被下采样至 16 kHz 并转换为 *.flac 格式。每个录音包含一个从脚本中读取的句子。
注释
提示从满足特定标准的语料库中提取,包括仅包含冰岛语字母中的字母,并列在冰岛语形态数据库(DIM)中。
个人和敏感信息
数据集包含捐赠声音的人的信息。使用者同意不尝试确定此数据集中说话者的身份。
使用数据的考虑
数据集的社会影响
这是第一个冰岛儿童的ASR语料库。
偏见讨论
- 语音由智能手机或网页应用录制。
- 参与者自我报告年龄、性别和母语。
- 数据集包含4至17岁儿童的语音。
其他已知限制
数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布,但没有任何保证。
附加信息
数据集策展人
数据集由雷克雅未克大学的语言和语音实验室(LVL)与 Almannarómur 合作,通过众包努力收集。
许可证信息
引用信息
@misc{menasamromurchildren2021, title={Samrómur Children Icelandic Speech 1.0}, ldc_catalog_no={LDC2022S11}, DOI={https://doi.org/10.35111/frrj-qd60}, author={Hernández Mena, Carlos Daniel and Borsky, Michal and Mollberg, David Erik and Guðmundsson, Smári Freyr and Hedström, Staffan and Pálsson, Ragnar and Jónsson, Ólafur Helgi and Þorsteinsdóttir, Sunneva and Guðmundsdóttir, Jóhanna Vigdís and Magnúsdóttir, Eydís Huld and Þórhallsdóttir, Ragnheiður and Guðnason, Jón}, publisher={Reykjavík University} journal={Linguistic Data Consortium, Philadelphia}, year={2019}, url={https://catalog.ldc.upenn.edu/LDC2022S11}, }
贡献
该项目由冰岛教育和文化部资助的语言技术计划(2019-2023)资助。数据集的验证由冰岛劳动局的暑期学生工作计划资助。



