Speak & Improve Corpus 2025

Name: Speak & Improve Corpus 2025
Creator: 剑桥大学
Published: 2024-12-18 00:40:27
License: 暂无描述

arXiv2024-12-18 更新2024-12-19 收录

下载链接：

https://englishlanguageitutoring.com/datasets/speak-and-improve-corpus-2025

下载链接

链接失效反馈

官方服务：

资源简介：

Speak & Improve Corpus 2025是由剑桥大学发布的第二语言英语学习者语音数据集，旨在解决第二语言口语处理系统中高质量标注数据缺乏的问题。该数据集包含约315小时的第二语言英语学习者录音，涵盖了从初级到高级的CEFR水平，并提供了全面的语言错误标注。数据来源于Speak & Improve学习平台的开放口语测试，学习者来自全球各地，具有多样化的母语背景。数据集的创建过程包括多阶段的标注，涉及语音质量评分、手动转录和语法错误修正。该数据集主要应用于语言学习任务，如口语能力评估、语法错误检测与修正，以及自动语音识别等技术研究。

Speak & Improve Corpus 2025 is a speech dataset of second-language English learners released by the University of Cambridge, which aims to address the shortage of high-quality annotated data in second-language spoken language processing systems. This corpus contains approximately 315 hours of recordings from second-language English learners, covering CEFR proficiency levels from beginner to advanced, and provides comprehensive linguistic error annotations. The data is collected from the open speaking tests on the Speak & Improve learning platform, with learners coming from across the globe and possessing diverse native language backgrounds. The construction process of the corpus includes multi-stage annotation, involving speech quality scoring, manual transcription, and grammatical error correction. This corpus is mainly applied to language learning-related research tasks, such as spoken proficiency assessment, grammatical error detection and correction, and automatic speech recognition.

提供机构：

剑桥大学

创建时间：

2024-12-17

搜集汇总

数据集介绍

构建方式

Speak & Improve Corpus 2025 数据集的构建基于 Speak & Improve 学习平台上的开放式英语口语测试。该数据集包含了约 315 小时的第二语言（L2）英语学习者的口语录音，并附有整体评分和语言错误标注。数据来源于全球范围内的学习者，涵盖了从初级（A2）到高级（C1）的广泛语言水平。为了确保数据的多样性和代表性，数据集还包含了手动转录和错误标注的子集，约 55 小时。这些标注包括了语言错误、不流畅现象（如填充词、重复等）以及发音错误。

使用方法

Speak & Improve Corpus 2025 数据集适用于多种语言学习任务的研究，包括口语语言评估（SLA）、口语语法错误纠正（SGEC）以及口语语法错误反馈（SGECF）。研究者可以利用该数据集训练和评估自动语音识别（ASR）系统、不流畅检测模型以及口语语法错误纠正模型。数据集的标注信息为这些任务提供了详细的参考，使得研究者能够开发更精确的模型。

背景与挑战

背景概述

Speak & Improve Corpus 2025是由剑桥大学工程系ALTA研究所、剑桥大学出版社与评估中心（CUP&A）以及Enhanced Speech Technology Ltd合作开发的一个第二语言（L2）英语学习者口语数据集。该数据集旨在解决L2口语处理系统开发中缺乏高质量标注数据的问题，特别是针对自动语音识别（ASR）、口语语法错误纠正（GEC）和语言评估反馈等任务。数据集包含了约315小时的L2英语学习者口语录音，涵盖了从CEFR A2到C1的广泛语言水平，并提供了全面的标注，包括整体评分和语法错误标注。该数据集的发布不仅填补了相关领域的数据空白，还为语言学习技术的研究提供了宝贵的资源。

当前挑战

Speak & Improve Corpus 2025在构建过程中面临了多个挑战。首先，数据集的多样性要求涵盖广泛的母语背景和语言水平，这导致了发音错误和语法错误的多样性，增加了标注和处理的复杂性。其次，由于数据来源于学习者的自发口语测试，包含了大量的不流畅表达（如填充词、重复和语法错误），这使得自动语音识别和语法错误纠正任务更加困难。此外，数据集的标注过程需要高度专业化的语言学知识，以确保标注的准确性和一致性。最后，数据集的发布还面临着数据泄露的风险，特别是在与大型语言模型（LLMs）结合使用时，需要采取严格的保护措施以防止数据被用于模型训练。

常用场景

经典使用场景

Speak & Improve Corpus 2025 数据集的经典使用场景主要集中在第二语言（L2）英语学习者的口语评估与反馈任务中。该数据集通过收集自 Speak & Improve 学习平台的开放式口语测试数据，提供了丰富的语音样本及其对应的全面评分和语言错误标注。研究者可以利用这些数据进行口语能力评估、语法错误检测与纠正等任务的研究，尤其是在自动语音识别（ASR）、口语语法错误纠正（SGEC）以及口语语法错误反馈（SGECF）等领域。

解决学术问题

Speak & Improve Corpus 2025 数据集解决了第二语言学习者在口语评估与反馈领域中长期面临的数据稀缺问题。该数据集通过提供高质量的标注数据，填补了公开可用的高质量 L2 英语口语数据集的空白。这不仅推动了口语评估技术的研究，还为口语语法错误纠正和反馈提供了新的研究方向，特别是在处理非母语者的发音、语法错误以及自然语言中的不流畅现象等方面，具有重要的学术意义。

实际应用

在实际应用中，Speak & Improve Corpus 2025 数据集为开发自动化语言学习工具提供了宝贵的资源。这些工具可以帮助学习者通过自动评估和反馈系统提高其英语口语能力，尤其是在发音、语法和流利度等方面。此外，该数据集还可用于开发智能教育平台，为不同语言背景和水平的学习者提供个性化的学习支持，从而提升语言学习的效率和效果。

数据集最近研究