five

rkarhila/SIAK

收藏
Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rkarhila/SIAK
下载链接
链接失效反馈
官方服务:
资源简介:
Say It Again, Kid! (SIAK) 数据集是一个专门用于儿童英语发音质量分类器训练的数据集。它包含了以芬兰口音和英国口音为主的儿童英语发音数据,数据以flac格式提供。每个文件的命名规则详细说明了样本的来源和属性,包括说话者的母语、年龄、样本编号等信息。数据集来源于2014-2018年的SIAK项目,所有数据均已匿名处理,以确保符合GDPR的要求。数据集的使用受到一定的限制,主要用于语音技术或科学语言学习相关的研究和展示。
提供机构:
rkarhila
原始信息汇总

数据集概述

基本信息

  • 许可协议:CC-BY-ND-4.0
  • 任务类别:自动语音识别
  • 语言:英语
  • 数据集名称:"Say It Again, Kid!" Native and Finnish accented Childrens English with pronunciation scores
  • 数据集大小:10K<n<100K

数据内容

  • 数据格式:FLAC
  • 数据集组成:训练集和测试集
  • 文件命名规则
    • Speaker key:指示训练或测试集及说话者编号,例如 train001
    • Native language:芬兰语为 "fifi",英国英语为 "enuk",其他为 "othr"
    • Age of speaker:说话者年龄(如已知)
    • Sample number:样本编号
    • Seconds from first sample:自首次录音以来的秒数
    • Target utterance text:目标发音文本,空格等被替换为破折号

使用限制

  • 非衍生作品:音频样本不能用于与描述数据集无关的任何工作,除非在语音技术或科学语言学习背景下直接描述数据集。
  • 商业使用:允许用于构建和评估语音技术模型。

引用信息

  • 引用文献:Karhila & al.: Pronunciation Scoring System Embedded into Children’s Foreign Language Learning Games with Experimental Verification of Learning Benefits, SLATE 2023.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作