speechocean-l2eval

Hugging Face2026-01-26 更新2026-01-27 收录

下载链接：

https://huggingface.co/datasets/changelinglab/speechocean-l2eval

下载链接

链接失效反馈

官方服务：

资源简介：

speechocean762 是一个开源的、非母语英语语音语料库，专为发音评估和 L2 口语能力建模而设计。该数据集包含句子级别的音频和专家评分，分为标准的训练集、验证集和测试集。所有说话者均为以普通话为母语的英语学习者，涵盖儿童和成人。每个句子由五位专家独立评估，使用标准化的发音指标。数据集适用于发音评分、L2 语音评估、语音表示学习以及回归或分类任务。数据集包含以下字段：音频（16 kHz）、说话者标识符、句子标识符、提示句子、发音准确度、单词发音完整度、流畅度评分、韵律评分和总体发音评分。数据集分为训练集（2260 个样本）、验证集（240 个样本）和测试集（2500 个样本），且各集合之间说话者不重叠。数据集源自原始 speechocean762 语料库，但不包含单词级别和音素级别的标注。

speechocean762 is an open-source non-native English speech corpus designed for pronunciation assessment and L2 speaking proficiency modeling. The dataset contains sentence-level audio and expert scores, divided into standard training, validation, and test sets. All speakers are Mandarin-native English learners, covering both children and adults. Each sentence is independently evaluated by five experts using standardized pronunciation metrics. The corpus is applicable to pronunciation scoring, L2 speech assessment, speech representation learning, as well as regression or classification tasks. The dataset includes the following fields: audio (16 kHz), speaker identifier, sentence identifier, prompt sentence, pronunciation accuracy, word pronunciation completeness, fluency score, prosody score, and overall pronunciation score. The dataset is split into training set (2260 samples), validation set (240 samples), and test set (2500 samples), with no overlapping speakers across the splits. The corpus is derived from the original speechocean762 corpus, but excludes word-level and phoneme-level annotations.

创建时间：

2026-01-21

原始信息汇总

SpeechOcean762 数据集概述

数据集基本信息

数据集名称: speechocean762
主要用途: 发音评估与第二语言口语能力建模
语言: 英语（非母语）
说话者背景: 所有说话者均为母语为汉语的英语学习者，涵盖儿童和成人。
许可证: CC BY-NC 4.0
关联论文: arXiv:2601.14046

数据集内容与结构

核心内容: 提供句子级别的音频和专家评分。
数据规模: 总大小约586 MB，包含5000个样本。
数据划分: 包含三个预定义的、说话者互斥的标准划分：
- 训练集 (train): 2260个样本
- 验证集 (val): 240个样本
- 测试集 (test): 2500个样本

数据特征

每个样本包含以下字段：

字段名	数据类型	描述
`audio`	`Audio`	语音波形，采样率为16 kHz
`speaker_id`	`string`	说话者标识符
`utt_id`	`string`	话语标识符
`text`	`string`	提示句子文本
`accuracy`	`int32`	句子级别的发音准确度评分
`completeness`	`float32`	正确发音单词的百分比
`fluency`	`int32`	句子级别的流利度评分
`prosodic`	`int32`	句子级别的韵律评分
`total`	`int32`	整体发音评分

评分说明

所有句子级别的评分均遵循原始 speechocean762 的定义。
每个话语由五位专家标注者使用标准化的发音指标独立评估。
本版本不包含单词级别和音素级别的标注。

适用任务

发音评分
第二语言语音评估
语音表示学习
下游回归或分类任务

来源与致谢

源数据集: https://huggingface.co/datasets/mispeech/speechocean762
原始论文引用: bibtex @inproceedings{zhang2021speechocean762, title={speechocean762: An Open-Source Non-native English Speech Corpus For Pronunciation Assessment}, author={Zhang, Junbo and Zhang, Zhiwen and Wang, Yongqing and Yan, Zhiyong and Song, Qiong and Huang, Yukai and Li, Ke and Povey, Daniel and Wang, Yujun}, booktitle={Proc. Interspeech 2021}, year={2021} }
相关工具: 可与基准测试工具包 PRiSM 配合使用：https://github.com/changelinglab/prism

搜集汇总

数据集介绍

构建方式

在第二语言习得研究领域，speechocean762数据集为发音评估任务提供了系统性的数据支持。该数据集通过采集以汉语为母语的英语学习者的语音样本构建而成，涵盖了儿童与成人两大群体。每条语音样本均由五位专家独立进行标注，依据标准化的发音指标对准确性、完整性、流畅性及韵律性等多个维度进行量化评分，确保了标注的一致性与可靠性。数据集的构建严格遵循说话者分离原则，划分了训练集、验证集与测试集，为模型训练与评估奠定了坚实基础。

特点

speechocean762数据集的核心特点在于其专注于非母语英语发音评估，提供了句子级别的音频与专家评分。数据集包含丰富的语音特征，如16kHz采样率的音频波形、说话者标识及文本提示，同时附有准确性、完整性、流畅性、韵律性及总分等多维度评分。这些评分基于五位专家的独立标注，具有较高的信度与效度。数据集的划分遵循说话者分离原则，确保了评估的公正性，适用于发音评分、第二语言语音建模及语音表示学习等多种研究场景。

使用方法

在语音处理与教育技术研究中，speechocean762数据集为发音评估模型的开发与验证提供了重要资源。使用者可通过Hugging Face平台直接加载数据集，利用其预定义的训练集、验证集与测试集进行模型训练与性能评估。数据集支持自动语音识别、回归分析及分类任务等多种应用，用户可依据音频特征与专家评分构建预测模型。此外，数据集与PRiSM等基准工具包兼容，便于进行系统性的性能比较与可重复性研究，推动发音评估技术的进步。

背景与挑战

背景概述

随着全球英语作为第二语言（L2）学习需求的日益增长，自动发音评估技术成为教育科技领域的关键研究方向。speechocean762数据集由研究人员于2021年创建，旨在为非母语英语学习者的发音质量提供系统化评估资源。该数据集聚焦于以汉语为母语的英语学习者群体，涵盖儿童与成人，通过五位专家标注者对每个语音样本在准确性、完整性、流畅性及韵律等多个维度进行精细评分。其核心研究问题在于如何构建一个开放、标准化的语音语料库，以支持发音评分模型的训练与验证，进而推动语音识别与语言学习交叉领域的算法进步。该数据集的发布为发音评估、第二语言口语能力建模及语音表示学习等任务奠定了重要基础，显著促进了相关学术研究与技术应用的发展。

当前挑战

在发音评估领域，自动评分系统面临诸多挑战，包括如何准确捕捉非母语学习者在音素、词汇及句子层面的发音偏差，以及如何将主观的人类专家评分转化为客观、一致的机器学习目标。speechocean762数据集针对这些挑战，提供了多维度专家评分，但构建过程中亦遇到困难：首先，数据收集需平衡说话者年龄、性别及语言背景的多样性，以确保样本的代表性；其次，专家标注过程需严格统一评分标准，以降低标注者间差异，保障数据质量与可靠性；此外，数据预处理与分割需遵循说话者独立原则，避免模型过拟合，增强泛化能力。这些挑战共同塑造了数据集的严谨结构与实用价值。

常用场景

经典使用场景

在第二语言习得研究领域，speechocean-l2eval数据集为发音评估任务提供了关键资源。该数据集广泛应用于非母语英语学习者的发音质量自动评分，通过结合音频波形与专家标注的句子级评分，支持模型对发音准确性、完整性、流畅性及韵律特征进行端到端学习。其经典使用场景包括构建基于深度学习的发音评分系统，这些系统能够模拟人类专家的评估过程，为语言学习平台提供即时反馈，从而辅助学习者改善发音表现。

实际应用

在实际应用中，speechocean-l2eval数据集支撑了智能语言学习工具的开发。基于该数据集训练的模型可集成在线教育平台或移动应用程序，为英语学习者提供实时的发音诊断与个性化改进建议。此外，该数据集也被用于构建语音辅助技术，如针对非母语者的语音交互系统优化，提升其在教育、职业培训等场景下的实用性与包容性，助力全球化背景下的语言技能提升。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作。例如，原始论文提出的发音评估框架为后续模型提供了基准，而基于该数据集的表示学习研究探索了语音特征与发音质量间的关联。近期，PRiSM等基准工具利用该数据集评测语音模型中音素实现性能，推动了发音评估与通用语音模型的交叉创新。这些工作共同拓展了数据集在语音处理、教育技术等领域的应用边界。

以上内容由遇见数据集搜集并总结生成