Speak & Improve Corpus 2025

Name: Speak & Improve Corpus 2025
Creator: 剑桥大学
Published: 2024-12-17 01:07:26
License: 暂无描述

arXiv2024-12-17 更新2024-12-18 收录

下载链接：

http://arxiv.org/abs/2412.11986v1

下载链接

链接失效反馈

官方服务：

资源简介：

Speak & Improve Corpus 2025是由剑桥大学发布的第二语言英语学习者语音数据集，旨在解决第二语言口语处理系统中高质量标注数据缺乏的问题。该数据集包含约340小时的英语学习者语音录音，带有整体评分和部分语音的转录及错误标注。数据来源于Speak & Improve学习平台的开放口语测试，涵盖了从初学者到高级学习者的广泛语言水平和母语背景。数据集的创建过程包括多阶段的标注，涉及语音质量评分、手动转录和语法错误标注。该数据集主要应用于语言学习任务，如口语能力评估、语法错误检测与反馈，以及自动语音识别等技术研究。

Speak & Improve Corpus 2025 is a spoken English dataset for second-language learners released by the University of Cambridge, which aims to address the scarcity of high-quality annotated data in second-language speech processing systems. This dataset contains approximately 340 hours of speech recordings from English language learners, equipped with overall proficiency scores, partial speech transcriptions and error annotations. The data is collected from open speaking tests hosted on the Speak & Improve learning platform, covering a wide spectrum of language proficiencies ranging from beginner to advanced levels and diverse native language backgrounds. The development of this dataset involves multi-stage annotation procedures, including speech quality scoring, manual transcription and grammatical error annotation. This dataset is primarily utilized for research in language learning-related tasks, such as spoken proficiency assessment, grammatical error detection and feedback, as well as technical studies on automatic speech recognition and related domains.

提供机构：

剑桥大学

创建时间：

2024-12-17

搜集汇总

数据集介绍

构建方式

Speak & Improve Corpus 2025 数据集通过 Speak & Improve 学习平台收集，涵盖了约 340 小时的第二语言（L2）英语学习者口语录音。数据集的构建包括多个阶段，首先对录音进行整体评分，筛选出符合质量标准的部分。随后，对其中约 60 小时的录音进行手动转录，并标注了语言错误、不流畅现象（如停顿、重复）以及发音错误。这些标注为研究者提供了丰富的语言学习任务数据，如口语能力评估、语法错误纠正等。

特点

Speak & Improve Corpus 2025 数据集的显著特点在于其广泛的多样性，涵盖了从初学者（A2）到高级（C1）的多个语言水平，以及来自全球不同母语背景的学习者。此外，数据集不仅提供了整体评分，还包含了详细的转录和错误标注，支持多种语言学习任务的研究，如自动语音识别、不流畅检测和口语语法错误纠正。

使用方法

Speak & Improve Corpus 2025 数据集可用于多种语言学习任务的研究，包括口语能力评估、口语语法错误纠正以及不流畅检测等。研究者可以通过访问 ELiT 网站获取数据集，并将其应用于开发和评估相关技术，如自动语音识别系统和语法错误纠正模型。数据集的标注信息为研究者提供了丰富的训练和测试资源，有助于推动第二语言口语处理技术的发展。

背景与挑战

背景概述

Speak & Improve Corpus 2025是由剑桥大学工程系ALTA研究所、剑桥大学出版社与评估部门（CUP&A）以及Enhanced Speech Technology Ltd合作开发的一个专门用于第二语言（L2）英语学习者口语评估与反馈的数据集。该数据集包含了约340小时的L2英语学习者口语录音，涵盖了从CEFR A2到C1的广泛语言水平，并提供了全面的语言错误标注。Speak & Improve Corpus 2025的发布旨在解决L2口语处理系统开发中高质量标注数据匮乏的问题，推动自动语音识别（ASR）、口语语法错误纠正（GEC）等技术的研究，并为语言学习任务提供丰富的资源。

当前挑战

Speak & Improve Corpus 2025在构建过程中面临多重挑战。首先，数据集的多样性要求涵盖广泛的母语背景和语言水平，这导致了发音错误、语法错误和流利度差异的复杂性。其次，数据的收集和标注过程需要高度专业化的工具和方法，以确保标注的准确性和一致性。此外，处理自发性的口语数据，如不流畅表达、重复和错误启动，增加了数据处理的难度。最后，如何确保数据集在语言学习技术中的广泛适用性，同时避免数据泄露，也是该数据集面临的重要挑战。

常用场景

经典使用场景

Speak & Improve Corpus 2025 数据集的经典使用场景主要集中在第二语言（L2）英语学习者的口语评估与反馈任务中。该数据集包含了约340小时的L2英语学习者口语录音，涵盖了从初级（A2）到高级（C1）的CEFR水平，并附有全面的语言错误标注。研究者可以利用这些数据进行口语能力评估、语法错误检测与纠正、以及自动语音识别（ASR）等任务的研究。

解决学术问题

Speak & Improve Corpus 2025 数据集解决了L2英语口语处理系统开发中的一个关键问题，即高质量标注数据的缺乏。通过提供广泛的说话者属性和能力范围，该数据集为研究者提供了丰富的资源，用于开发和评估口语评估、语法错误纠正等任务的自动化工具。这不仅推动了相关技术的进步，还为语言学习者提供了更有效的学习反馈机制。

衍生相关工作

基于Speak & Improve Corpus 2025 数据集，研究者们开展了多项相关工作，包括口语语法错误纠正（SGEC）、口语语法错误反馈（SGECF）以及自动语音识别（ASR）等。这些研究不仅推动了L2英语口语处理技术的发展，还为未来的语言学习技术提供了新的研究方向。例如，基于该数据集的挑战赛Speak & Improve Challenge 2025，吸引了众多研究者参与，进一步促进了相关技术的创新与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集