rkarhila/SIAK
收藏Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rkarhila/SIAK
下载链接
链接失效反馈官方服务:
资源简介:
Say It Again, Kid! (SIAK) 数据集是一个专门用于儿童英语发音质量分类器训练的数据集。它包含了以芬兰口音和英国口音为主的儿童英语发音数据,数据以flac格式提供。每个文件的命名规则详细说明了样本的来源和属性,包括说话者的母语、年龄、样本编号等信息。数据集来源于2014-2018年的SIAK项目,所有数据均已匿名处理,以确保符合GDPR的要求。数据集的使用受到一定的限制,主要用于语音技术或科学语言学习相关的研究和展示。
提供机构:
rkarhila
原始信息汇总
数据集概述
基本信息
- 许可协议:CC-BY-ND-4.0
- 任务类别:自动语音识别
- 语言:英语
- 数据集名称:"Say It Again, Kid!" Native and Finnish accented Childrens English with pronunciation scores
- 数据集大小:10K<n<100K
数据内容
- 数据格式:FLAC
- 数据集组成:训练集和测试集
- 文件命名规则:
- Speaker key:指示训练或测试集及说话者编号,例如
train001 - Native language:芬兰语为 "fifi",英国英语为 "enuk",其他为 "othr"
- Age of speaker:说话者年龄(如已知)
- Sample number:样本编号
- Seconds from first sample:自首次录音以来的秒数
- Target utterance text:目标发音文本,空格等被替换为破折号
- Speaker key:指示训练或测试集及说话者编号,例如
使用限制
- 非衍生作品:音频样本不能用于与描述数据集无关的任何工作,除非在语音技术或科学语言学习背景下直接描述数据集。
- 商业使用:允许用于构建和评估语音技术模型。
引用信息
- 引用文献:Karhila & al.: Pronunciation Scoring System Embedded into Children’s Foreign Language Learning Games with Experimental Verification of Learning Benefits, SLATE 2023.



