Speak & Improve (S&I) Corpus 2025

Name: Speak & Improve (S&I) Corpus 2025
Creator: ALTA研究所/MIL实验室，工程系，剑桥大学，英国
Published: 2024-12-17 01:05:18
License: 暂无描述

arXiv2024-12-17 更新2024-12-18 收录

下载链接：

http://arxiv.org/abs/2412.11985v1

下载链接

链接失效反馈

官方服务：

资源简介：

Speak & Improve (S&I) Corpus 2025是由剑桥大学ALTA研究所/MIL实验室创建的一个用于研究口语语言评估和反馈的数据集。该数据集包含约340小时的第二语言学习者英语口语数据，涵盖了从A2到C1的欧洲语言共同参考框架（CEFR）水平。数据集内容包括详细的转录、不流畅标签、语法错误修正和熟练度评分，旨在支持口语语言评估和反馈的研究。数据集的创建过程包括三个阶段：评分、转录标注和错误标注，确保了数据的高质量和实用性。该数据集主要应用于语言学习领域，旨在解决自动口语评估和反馈中的技术挑战。

Speak & Improve (S&I) Corpus 2025 is a dataset developed by the ALTA Institute / MIL Lab at the University of Cambridge for research on spoken language assessment and feedback. It contains approximately 340 hours of spoken English data from second language learners, spanning CEFR proficiency levels from A2 to C1. The dataset includes detailed transcripts, disfluency labels, grammatical error corrections, and proficiency ratings, and was constructed via three stages: scoring, transcription annotation, and error annotation to ensure its high quality and practical applicability. Primarily utilized in the field of language learning, this dataset aims to address technical challenges in automatic spoken language assessment and feedback.

提供机构：

ALTA研究所/MIL实验室，工程系，剑桥大学，英国

创建时间：

2024-12-17

搜集汇总

数据集介绍

构建方式

Speak & Improve (S&I) Corpus 2025 数据集通过从Speak & Improve学习平台收集的开放式（即兴）口语测试数据构建而成。该数据集包含约340小时的第二语言英语学习者语音数据，涵盖了从A2到C1的CEFR水平。数据集的构建分为三个阶段：首先是评分阶段，每个回答都进行了整体评分和分析评分；其次是转录注释阶段，手动生成并精炼转录，捕捉学习者的口语输出；最后是错误注释阶段，进一步处理转录以纠正语法错误。

特点

Speak & Improve (S&I) Corpus 2025 数据集的显著特点在于其多样性和丰富的注释。数据集包含了来自不同母语背景和英语水平的学习者语音，涵盖了广泛的CEFR水平（A2-C1）。此外，数据集提供了详细的注释，包括转录、不流畅标签、语法错误修正和熟练度评分，这使得该数据集成为开发包容性和准确性语言评估工具的独特资源。

使用方法

Speak & Improve (S&I) Corpus 2025 数据集可用于多个任务，包括自动语音识别（ASR）、口语语言评估（SLA）、口语语法错误修正（SGEC）和口语语法错误修正反馈（SGECF）。用户可以选择在封闭或开放的轨道上参与这些任务。在封闭轨道中，用户只能使用预定的模型和数据源；而在开放轨道中，用户可以使用任何公开的资源。数据集的多样性和丰富注释使其适用于开发和评估各种口语语言处理技术。

背景与挑战

背景概述

Speak & Improve (S&I) Corpus 2025 是由剑桥大学ALTA研究所/MIL实验室和剑桥大学出版社与评估部门联合发布的一个专门用于第二语言学习者英语口语评估与反馈研究的数据集。该数据集的核心研究问题是如何通过自动化系统对学习者的口语能力进行准确评估并提供有效的反馈，以辅助语言学习。Speak & Improve (S&I) Corpus 2025 包含了约340小时的第二语言学习者英语口语数据，涵盖了从A2到C1的欧洲语言共同参考框架（CEFR）水平，并提供了详细的标注，如转录、不流畅标签、语法错误修正和熟练度评分。该数据集的发布旨在推动口语语言评估与反馈技术的发展，并为相关领域的研究提供丰富的资源。

当前挑战

Speak & Improve (S&I) Corpus 2025 的构建与应用面临多重挑战。首先，处理自然、开放、即兴的口语数据，这些数据通常包含未知的文本、非标准的口音、发音和语法，这为自动语音识别（ASR）和口语语言评估（SLA）带来了技术上的复杂性。其次，构建过程中面临高质量标注数据的稀缺性，这限制了相关研究的进展。此外，口语语法错误修正（SGEC）和反馈（SGECF）任务需要处理口语中的不流畅现象，如犹豫、重复和错误开始，这些挑战在书面语法错误修正中并不常见。最后，确保评估系统的公平性和包容性，使其能够适应不同语言背景和熟练水平的学习者，也是该数据集面临的重要挑战。

常用场景

经典使用场景

Speak & Improve (S&I) Corpus 2025 数据集的经典使用场景主要集中在第二语言（L2）学习者的口语评估与反馈领域。该数据集通过提供丰富的标注信息，包括语音转录、流畅性标签、语法错误修正和整体评分，支持自动语音识别（ASR）、口语语言评估（SLA）、口语语法错误修正（SGEC）以及口语语法错误修正反馈（SGECF）等任务的研究与开发。这些任务旨在提升自动化语言学习工具的准确性和鲁棒性，特别是在处理非母语者的自然、自发语音时。

解决学术问题

Speak & Improve (S&I) Corpus 2025 数据集解决了第二语言学习者口语评估与反馈领域中的多个关键学术问题。首先，它填补了高质量标注数据的稀缺性，为研究人员提供了丰富的语音和文本数据，支持更深入的口语处理研究。其次，该数据集通过多样化的标注和多层次的评分系统，解决了非母语者在语音、语法和流畅性方面的复杂问题，推动了自动化评估和反馈系统的开发。此外，该数据集还为口语语法错误修正和反馈提供了独特的研究机会，填补了现有数据集在口语语法修正领域的空白。

衍生相关工作

Speak & Improve (S&I) Corpus 2025 数据集的发布催生了一系列相关研究工作。首先，基于该数据集的自动语音识别（ASR）研究推动了非母语者语音识别技术的进步，特别是在处理多样化的口音和发音问题方面。其次，口语语言评估（SLA）任务的研究促进了更精确的口语能力评分系统的发展，使得评估结果更加贴近人类专家的判断。此外，口语语法错误修正（SGEC）和反馈（SGECF）任务的研究为开发智能语法纠错工具提供了新的思路，这些工具能够识别并纠正学习者在口语表达中的语法错误，提供即时的反馈和改进建议。这些衍生工作不仅丰富了口语处理领域的研究，还为语言学习技术的实际应用提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集