mict-zhaw/chall
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mict-zhaw/chall
下载链接
链接失效反馈官方服务:
资源简介:
ChaLL数据集包含瑞士年轻英语学习者的自发语音录音,这些录音捕捉了各种语言学习任务,旨在激发学生的真实交流。数据集包括详细的逐字转录和错误注释。转录由专业转录服务准备,每个录音都附有详细的元数据,包括学校年级、录音条件和错误注释。由于数据涉及未成年人,因此不能公开分享,但可以通过合作项目访问。
ChaLL数据集包含瑞士年轻英语学习者的自发语音录音,这些录音捕捉了各种语言学习任务,旨在激发学生的真实交流。数据集包括详细的逐字转录和错误注释。转录由专业转录服务准备,每个录音都附有详细的元数据,包括学校年级、录音条件和错误注释。由于数据涉及未成年人,因此不能公开分享,但可以通过合作项目访问。
提供机构:
mict-zhaw
原始信息汇总
数据集概述
数据集名称
- 名称: ChaLL
- 别名: 无
数据集描述
数据集摘要
- 内容: 包含瑞士年轻英语学习者的自发语音录音。
- 特点: 录音捕捉了旨在引发学生真实交流的各种语言学习任务,包括详细的逐字转录和学习者错误的注释。
- 转录: 由专业转录服务准备,每个录音都附有详细的元数据,包括学校年级、录音条件和错误注释。
支持的任务和排行榜
- 任务: 自动语音识别(ASR)
- 排行榜: 未提供
语言
- 主要语言: 英语
- 使用者: 瑞士德语区学习英语的儿童,包含多种口音和方言影响。
数据集结构
数据实例
- 典型实例: 包括音频文件、完整转录、错误注释和相关元数据(如说话者的年级和录音条件)。
数据字段
- 通用字段:
- audio_id: 音频记录的唯一标识符。
- intervention: 干预类型或阶段的整数表示。
- school_grade: 参与录音的学生的年级。
- area_of_school_code: 学校特定区域的代码。
- raw_text: 音频的原始转录。
- clear_text: 原始文本的清理版本。
- background_noise: 指示录音中是否存在背景噪音的布尔值。
- audio: 包含音频数据及相关信息的对象。
数据分割
- 分割方式: 根据实验设置使用不同的配置来加载数据。
数据集创建
采集理由
- 目的: 创建一个能够处理儿童自发语音并保留其错误以提供有效语言学习环境中的纠正反馈的ASR系统。
源数据
- 数据收集: 来自9至14岁的主要学校学生的音频数据,他们在学校和大学进行语言学习任务的录音。
- 语言生产者: 瑞士德语区的9至14岁儿童。
注释
- 注释过程: 外包给遵循特定错误注释指南的转录机构。
- 注释者: 转录机构的专业人员。
使用数据的考虑
社会影响
- 影响: 支持开发可能增强儿童语言学习的教育工具。
偏见讨论
- 局限性: 由于特定的人口统计(瑞士德语区学校儿童),数据集可能不适用于其他形式的英语或其他语言或文化背景的说话者。
附加信息
数据集管理者
- 管理者: PHZH, UZH和Zhaw的研究人员,与瑞士当地学校合作。
许可证信息
- 许可证: Apache-2.0(待定)
引用信息
- 引用格式: bibtex @inproceedings{ anonymous2024errorpreserving, title={Error-preserving Automatic Speech Recognition of Young English Learners Language}, author={Janick Michot, Manuela Hürlimann, Jan Deriu, Luzia Sauer, Katsiaryna Mlynchyk, Mark Cieliebak}, booktitle={The 62nd Annual Meeting of the Association for Computational Linguistics}, year={2024}, url={https://openreview.net/forum?id=XPIwvlqIfI} }



