speechocean762

Name: speechocean762
Creator: 小米公司，北京，中国
Published: 2021-06-02 21:12:02
License: 暂无描述

arXiv2021-06-02 更新2024-06-21 收录

下载链接：

https://www.openslr.org/101

下载链接

链接失效反馈

官方服务：

资源简介：

speechocean762是一个专为发音评估设计的开源语音数据集，由小米公司和SpeechOcean Ltd.在北京创建。数据集包含250名非母语英语使用者的5000条英语发音，其中一半是儿童。每条发音由五位专家在句子、单词和音素级别上进行标注。数据集旨在支持计算机辅助语言学习（CALL）和第二语言（L2）学习中的发音评估研究。该数据集可用于商业和非商业目的，通过OpenSLR平台免费下载，并配有Kaldi语音识别工具包中的基线系统，以展示音素级别的发音评估流程。

Speechocean762 is an open-source speech dataset specifically designed for pronunciation assessment, created by Xiaomi Corporation and SpeechOcean Ltd. in Beijing. The dataset contains 5,000 English utterances from 250 non-native English speakers, half of whom are children. Each utterance was annotated by five experts at the sentence, word, and phoneme levels. This dataset aims to support research on pronunciation assessment in computer-assisted language learning (CALL) and second language (L2) learning. It is available for both commercial and non-commercial use, and can be freely downloaded via the OpenSLR platform. Additionally, it includes a baseline system based on the Kaldi speech recognition toolkit to demonstrate the phoneme-level pronunciation assessment workflow.

提供机构：

小米公司，北京，中国

创建时间：

2021-04-03

搜集汇总

数据集介绍

构建方式

speechocean762数据集的构建基于日常生活中的文本，包含约2600个常用英语单词。录音环境为安静的3×3米房间，参与者手持手机，距离嘴巴20厘米，朗读文本。录音设备包括苹果、三星、小米和华为等流行手机型号。每位参与者朗读20个句子，总时长约6小时。数据集包含250名母语为普通话的英语学习者的录音，其中一半为儿童。录音分为训练集和测试集，各包含125名参与者。录音前，专家根据参与者的英语发音熟练度将其分为三个等级：良好、一般和较差。

特点

speechocean762数据集的特点在于其开放性和多样性。首先，该数据集免费提供给商业和非商业用途，极大地促进了研究的可及性。其次，数据集涵盖了儿童和成人两种年龄段的参与者，增加了样本的多样性。此外，数据集的标注由五位专家独立完成，涵盖句子、单词和音素三个层次，确保了标注的准确性和全面性。

使用方法

speechocean762数据集主要用于发音评估任务。研究者可以通过OpenSLR网站免费下载数据集，并使用Kaldi语音识别工具包中的基线系统进行音素级别的发音评估。基线系统基于神经网络的Goodness of Pronunciation (GOP)方法，通过预训练的声学模型和强制对齐技术，生成音素级别的评分。此外，数据集的标注信息可用于训练和验证发音评估模型，帮助研究者开发更精确的发音评估系统。

背景与挑战

背景概述

在计算机辅助语言学习（CALL）领域，计算机辅助发音训练（CAPT）应用凭借其发音评估技术，已成为外语学习与能力测试中的重要工具。speechocean762数据集由小米公司和SpeechOcean Ltd.于2021年联合发布，旨在为发音评估研究提供一个开放源代码的非母语英语语音语料库。该数据集包含250名非母语英语学习者的5000条英语语音，其中一半为儿童。五位专家对每条语音进行了句子级、单词级和音素级的标注。此数据集不仅填补了现有非母语英语语料库在年龄多样性和多层次标注方面的空白，还为发音评估技术的研究提供了宝贵的资源。

当前挑战

speechocean762数据集在构建过程中面临多项挑战。首先，音素级评分需要确定规范的音素序列，而这一序列可能因发音习惯而异，导致标注的不一致性。其次，数据集的标注工作复杂，涉及句子级、单词级和音素级的多层次评分，这要求专家在一致性和准确性上达到高标准。此外，数据集的发布旨在解决现有语料库在商业和非商业用途上的限制，以及在年龄和发音水平多样性上的不足。这些挑战不仅影响了数据集的构建效率，也对后续研究中的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

speechocean762数据集在发音评估领域中被广泛应用于计算机辅助语言学习（CALL）系统中。其经典使用场景包括对非母语英语学习者的发音进行多层次评估，涵盖句子级、单词级和音素级的详细评分。通过该数据集，研究人员能够开发和验证发音评估算法，从而提升外语学习者的发音准确性和流利度。

衍生相关工作

speechocean762数据集的发布催生了多项相关研究工作。例如，基于该数据集的音素级发音评估方法已被应用于开发新的发音纠正工具。同时，研究人员利用该数据集进行了深度学习模型的训练，以提高发音评估的准确性和鲁棒性。此外，该数据集还激发了对多语言发音评估系统的研究，推动了跨语言发音学习技术的进步。

数据集最近研究