seba3y/speechocean762

Name: seba3y/speechocean762
Creator: seba3y
Published: 2024-01-19 21:54:08
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/seba3y/speechocean762

下载链接

链接失效反馈

官方服务：

资源简介：

speechocean762是一个用于发音评分任务的非母语英语语料库，包含5000个英语句子，所有说话者均为母语为汉语的非母语者。数据集分为训练集和测试集，各包含2500个样本。数据集提供了句子级别、单词级别和音素级别的评分，评分由五位专家独立完成，以避免主观偏差。数据集的特征包括说话者信息、音频文件、文本内容以及多个评分维度。数据集的评分标准详细描述了音素、单词和句子级别的评分规则。

提供机构：

seba3y

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: Apache 2.0
数据量: 1K < n < 10K
任务类别: 音频分类、自动语音识别
标签: 发音评分、L1-普通话、L2-英语

数据集结构

特征

人口统计特征:
- spk: 说话者ID (字符串)
- age: 年龄 (字符串)
- gender: 性别 (字符串)
- utt_name: 话语名称 (字符串)
句子级特征:
- audio: 音频数据 (采样率: 16000)
- utt_text: 话语文本 (字符串)
- utt_accuracy: 话语准确性 (整数)
- utt_completeness: 话语完整性 (浮点数)
- utt_fluency: 话语流利度 (整数)
- utt_prosodic: 话语韵律 (整数)
- utt_total: 话语总分 (整数)
单词级特征:
- words: 单词序列 (字符串)
- words_accuracy: 单词准确性 (整数序列)
- words_stress: 单词重音 (整数序列)
- words_total: 单词总分 (整数序列)
音素级特征:
- phones: 音素序列 (字符串序列)
- phones_godness: 音素准确性 (浮点数序列)

数据分割

训练集:
- 字节数: 333075617.5
- 样本数: 2500
测试集:
- 字节数: 311790040.5
- 样本数: 2500

数据大小

下载大小: 611757634
数据集大小: 644865658.0

配置

默认配置:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*

数据集描述

该数据集旨在为发音评分任务提供一个免费公开的数据集。主要特点包括：

可免费下载用于商业和非商业目的。
说话者涵盖儿童和成人。
手动标注包括句子级、单词级和音素级的多个方面。

数据集包含5000个英语句子，所有说话者均为非母语者，母语为普通话。一半说话者为儿童，另一半为成人。提供了年龄和性别信息。五位专家独立评分以避免主观偏差。

评分标准

专家在三个级别上评分：音素级、单词级和句子级。

音素级

评分每个单词内音素的发音准确性。

评分范围: 0-2
- 2: 发音正确
- 1: 发音正确但有重音
- 0: 发音错误或缺失

单词级

评分每个单词的发音准确性和重音。

准确性:
- 评分范围: 0 - 10
- 10: 单词发音完美
- 7-9: 大部分音素发音正确但有口音
- 4-6: 少于30%的音素发音错误
- 2-3: 超过30%的音素发音错误或单词被误读为其他单词
- 1: 发音难以辨别
- 0: 无声音
重音:
- 评分范围: {5, 10}
- 10: 重音正确或单音节单词
- 5: 重音错误

句子级

评分句子级的准确性、流利度、完整性和韵律。

准确性:
- 评分范围: 0 - 10
- 9-10: 句子整体发音优秀，无明显发音错误
- 7-8: 句子整体发音良好，有少量发音错误
- 5-6: 句子整体发音可理解，有较多发音错误和口音
- 3-4: 句子整体发音差，发音生硬
- 0-2: 发音极差，仅能识别一两个单词
完整性:
- 评分范围: 0.0 - 1.0
- 发音良好的单词百分比
流利度:
- 评分范围: 0 - 10
- 8-10: 流利，无明显停顿或结巴
- 6-7: 总体流利，有少量停顿、重复和结巴
- 4-5: 发音有些不流利，有较多停顿、重复和结巴
- 0-3: 断断续续，非常不流利
韵律:
- 评分范围: 0 - 10
- 9-10: 正确语调，稳定语速，有节奏感
- 7-8: 接近正确语调，稳定语速，基本流畅
- 5-6: 语速不稳定，有较多结巴和停顿
- 3-4: 语速不稳定，说话过快或过慢
- 0-2: 语调差，结巴和停顿多

数据结构

数据集包含两个子集：train 和 test，均采用Kaldi数据目录风格。评分存储在scores.json中，示例如下：

json { "000010011": { "text": "WE CALL IT BEAR", "accuracy": 8, "completeness": 10.0, "fluency": 9, "prosodic": 9, "total": 8, "words": [ { "accuracy": 10, "stress": 10, "total": 10, "text": "WE", "phones": "W IY0", "phones-accuracy": [2.0, 2.0] }, ... ] }, ... }

scores-detail.json包含五位专家的原始评分，而scores.json中的评分是平均或中位数评分。

引用

如需引用该数据集，请使用以下格式：

bibtex @inproceedings{zhang2021speechocean762, title={speechocean762: An Open-Source Non-native English Speech Corpus For Pronunciation Assessment}, author={Zhang, Junbo and Zhang, Zhiwen and Wang, Yongqing and Yan, Zhiyong and Song, Qiong and Huang, Yukai and Li, Ke and Povey, Daniel and Wang, Yujun}, booktitle={Proc. Interspeech 2021}, year={2021} }

搜集汇总

数据集介绍

构建方式

在计算机辅助语言学习领域，发音质量评估是关键技术之一。speechocean762数据集的构建过程体现了严谨的学术规范，其核心在于采集了5000句由母语为汉语的非英语母语者朗读的英语句子，涵盖了儿童与成人两大群体，确保了说话人年龄与性别的多样性。为确保评分的客观性与可靠性，五位专家依据统一的度量标准，独立对每个样本在音素、单词和句子三个层面进行了细致的多维度人工标注，最终通过计算平均值或中位数得到综合评分，有效避免了主观偏差。

特点

该数据集在发音评估研究领域展现出鲜明的特色。其最突出的优势在于提供了从音素、单词到句子三个层级的精细化、多维度评分标注，包括发音准确度、完整性、流利度及韵律等丰富特征。数据集中包含了说话人的年龄与性别等人口统计学信息，且所有说话人均为母语为汉语的英语学习者，这为研究特定母语背景下的二语发音习得模式提供了宝贵的资源。此外，数据集遵循Kaldi工具的数据目录结构，并提供了详细的原始专家评分与处理后的综合评分，结构清晰，便于深入研究。

使用方法

对于希望利用该数据集的研究者而言，其使用方法直接而高效。通过Hugging Face的`datasets`库，使用`load_dataset('seba3y/speechocean762')`指令即可便捷加载数据，数据将自动划分为训练集与测试集。加载后的数据集对象结构清晰，特征按人口统计信息、句子级、单词级和音素级有序组织。用户可以直接访问音频波形数据、对应文本转录以及各层级的评分标签，从而轻松构建用于发音质量自动评估、错误检测或语音特征分析的机器学习模型。数据集的开源许可也确保了其在学术与商业应用中的广泛可用性。

背景与挑战

背景概述

在计算机辅助语言学习（CALL）领域，发音评估技术是提升非母语者语言能力的关键工具。speechocean762数据集由研究人员于2021年构建，旨在为发音评分任务提供一个公开、免费的多层次标注语料库。该数据集聚焦于母语为汉语的英语学习者，涵盖了儿童与成人两大群体，共包含5000个英语句子，并由五位专家独立进行了音素、单词和句子三个维度的精细评分。其创新之处在于提供了从发音准确性、流利度到韵律特征的全面标注，为发音评估模型的开发与验证奠定了重要基础，推动了智能化语言教学系统的研究进展。

当前挑战

发音评分任务的核心挑战在于如何准确量化非母语者的发音质量，尤其是在面对汉语母语者特有的语音偏误时，模型需区分细微的口音差异与严重发音错误。数据构建过程中，专家评分的主观性是一大难题，尽管通过多人独立评分取平均以降低偏差，但评分标准的一致性与标注复杂性仍对数据可靠性构成考验。此外，数据规模相对有限，覆盖的发音场景和说话人多样性不足，可能限制模型的泛化能力，难以全面捕捉真实学习环境中的发音变异。

常用场景

经典使用场景

在计算机辅助语言学习领域，speechocean762数据集为发音评估任务提供了经典的应用场景。该数据集收录了5000个由母语为汉语的非英语母语者朗读的英语句子，覆盖了儿童与成人两类发音者群体，并提供了从音素、单词到句子三个层面的精细人工标注评分。这些标注包括发音准确性、完整性、流利度及韵律特征等多个维度，为构建自动发音评分模型奠定了坚实的数据基础。研究者可利用该数据集训练深度学习模型，实现对非母语者英语发音质量的自动化评估，从而推动智能语言教学系统的研发。

实际应用

该数据集的实际应用主要体现在智能教育科技产品中。基于speechocean762训练的发音评分模型，可集成到在线语言学习平台、移动应用程序或智能语音助手中，为英语学习者提供即时、客观的发音反馈。例如，系统可以指出用户某个单词的音素发音不准确，或句子层面的韵律存在问题，并给出改进建议。这种个性化、数据驱动的辅导方式，能够辅助教师进行教学，并帮助学习者，尤其是母语为汉语的学习者，在课堂之外进行有效的自主发音练习，提升语言学习效率。

衍生相关工作

自speechocean762发布以来，已衍生出多项发音评估领域的经典研究工作。例如，研究者利用其多粒度标注特性，开发了端到端的发音评分模型，这些模型能够同时预测句子、单词和音素级别的分数。此外，该数据集也常被用于基准测试，以比较不同神经网络架构（如LSTM、Transformer）在发音评分任务上的性能。一些工作进一步探索了如何利用该数据集的音素级标注进行发音错误检测与诊断，从而为更精细的发音纠正提供了算法基础，持续推动着计算机辅助发音教学技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集