mispeech/speechocean762

Name: mispeech/speechocean762
Creator: mispeech
Published: 2026-04-30 02:33:05
License: 暂无描述

Hugging Face2026-04-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mispeech/speechocean762

下载链接

链接失效反馈

官方服务：

资源简介：

speechocean762是一个用于发音评分任务的公开数据集，包含5000个英语句子。所有说话者均为非母语者（母语为汉语），包括儿童和成人。数据集提供了句子、单词和音素级别的评分，评分由五位专家独立完成，以避免主观偏差。数据集的特征包括准确性、完整性、流畅性、韵律等多个方面，并且提供了说话者的年龄和性别信息。

提供机构：

mispeech

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: Apache 2.0
数据规模: 1K<n<10K
任务类别: 自动语音识别
名称: speechocean762
标签: 发音评分

配置

配置名称: default
- 数据文件:
  - 训练集: data/train-*
  - 测试集: data/test-*

数据集信息

特征:
- accuracy: int64
- completeness: float64
- fluency: int64
- prosodic: int64
- text: string
- total: int64
- words:
  - accuracy: int64
  - phones: 字符序列
  - phones-accuracy: 浮点数序列
  - stress: int64
  - text: string
  - total: int64
  - mispronunciations:
    - canonical-phone: string
    - index: int64
    - pronounced-phone: string
- speaker: string
- gender: string
- age: int64
- audio: audio
分割:
- 训练集:
  - 字节数: 291617098
  - 样本数: 2500
- 测试集:
  - 字节数: 289610485
  - 样本数: 2500
下载大小: 611820406
数据集大小: 581227583

评分标准

句子级别:
- 准确性: 0-10
- 完整性: 0.0-1.0
- 流利度: 0-10
- 韵律: 0-10
单词级别:
- 准确性: 0-10
- 重音: {5, 10}
音素级别:
- 准确性: 0-2

示例

python

from datasets import load_dataset

test_set = load_dataset("mispeech/speechocean762", split="test")

len(test_set) 2500

next(iter(test_set)) {accuracy: 9, completeness: 10.0, fluency: 9, prosodic: 9, text: MARK IS GOING TO SEE ELEPHANT, total: 9, words: [{accuracy: 10, phones: [M, AA0, R, K], phones-accuracy: [2.0, 2.0, 1.8, 2.0], stress: 10, text: MARK, total: 10, mispronunciations: []}, {accuracy: 10, phones: [IH0, Z], phones-accuracy: [2.0, 1.8], stress: 10, text: IS, total: 10, mispronunciations: []}, {accuracy: 10, phones: [G, OW0, IH0, NG], phones-accuracy: [2.0, 2.0, 2.0, 2.0], stress: 10, text: GOING, total: 10, mispronunciations: []}, {accuracy: 10, phones: [T, UW0], phones-accuracy: [2.0, 2.0], stress: 10, text: TO, total: 10, mispronunciations: []}, {accuracy: 10, phones: [S, IY0], phones-accuracy: [2.0, 2.0], stress: 10, text: SEE, total: 10, mispronunciations: []}, {accuracy: 10, phones: [EH1, L, IH0, F, AH0, N, T], phones-accuracy: [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0], stress: 10, text: ELEPHANT, total: 10, mispronunciations: []}], speaker: 0003, gender: m, age: 6, audio: {path: 000030012.wav, array: array([-0.00119019, -0.00500488, -0.00283813, ..., 0.00274658,

      0.        ,  0.00125122]),

sampling_rate: 16000}}

搜集汇总

数据集介绍

构建方式

在计算机辅助语言学习领域，发音评分技术扮演着关键角色。speechocean762数据集的构建过程体现了严谨的学术规范，其核心在于收集了5000个英语句子，所有发音者均为母语为汉语的非英语母语者，涵盖了儿童与成人两大群体。为确保评分质量，五位专家依据统一的评分标准，独立对每个样本进行多维度标注，有效避免了主观偏差。该数据集在句子、单词及音素三个层面提供了精细的人工标注，构建了一个结构清晰、标注一致的高质量语音资源。

使用方法

在具体应用层面，该数据集为发音评分模型的开发与评估提供了标准化平台。研究者可通过Hugging Face的`datasets`库便捷加载数据，其清晰划分的训练集与测试集便于进行模型训练与性能验证。数据集中丰富的结构化特征，如多级评分、音素序列及误发音标注，可直接用于训练端到端的自动发音评分系统。该资源支持对发音质量进行细粒度分析，是推动计算机辅助语言学习技术发展的关键基础设施。

背景与挑战

背景概述

在计算机辅助语言学习（CALL）系统中，发音评分技术扮演着关键角色，旨在通过自动化手段评估非母语者的语音质量。2021年，由多位研究人员联合发布的speechocean762数据集，为这一领域提供了重要的开源资源。该数据集聚焦于以汉语为母语的英语学习者，涵盖了儿童与成人两大群体，共收录5000句英语语音样本。其核心研究问题在于构建一个多层次、细粒度的发音评估体系，通过专家独立标注，在音素、单词和句子三个层级上提供精准的评分。这一数据集的推出，显著促进了发音评分模型的标准化与可复现性，为语音教育技术的实证研究奠定了坚实基础。

当前挑战

发音评分领域长期面临主观性与一致性难题，如何建立客观、可量化的评估标准是核心挑战。speechocean762数据集在构建过程中，需克服标注者间偏差，通过五位专家独立工作并统一度量标准以保障数据可靠性。同时，数据采集涵盖不同年龄与性别的非母语者，其发音差异性与背景多样性增加了标注的复杂性。在模型应用层面，该数据集要求算法能够融合多层次评分特征，从局部音素准确度到整体韵律流畅性，实现端到端的精细化评估，这对机器学习模型的表征与泛化能力提出了较高要求。

常用场景

经典使用场景

在计算机辅助语言学习领域，speechocean762数据集为发音评估任务提供了经典的应用场景。该数据集通过包含5000个非母语英语句子，覆盖了儿童与成人两类说话者，并提供了音素、单词和句子三个层次的精细标注。研究者通常利用这些多层次的发音质量评分，构建端到端的自动发音评估模型，以模拟专家评分标准，从而实现对非母语学习者发音准确度、流畅性、完整性和韵律特征的自动化评估。

解决学术问题

该数据集有效解决了发音评估研究中缺乏高质量、多维度标注的非母语英语语料库的难题。其提供的多层次人工评分，包括音素级别的发音正确性、单词级别的重音准确性以及句子级别的综合表现，为学术界探索发音错误的细粒度检测与量化提供了可靠基准。这推动了发音评分模型从单一维度向多维度综合评估的发展，并为研究发音错误模式与说话者年龄、性别等因素的关联提供了数据支撑。

实际应用

在实际应用中，speechocean762数据集直接服务于智能语言学习系统的开发。基于该数据集训练的模型可集成到在线教育平台或移动应用程序中，为英语学习者提供即时、客观的发音反馈。系统能够精准指出用户在特定音素、单词重音或句子韵律上的不足，并给出改进建议，从而提供个性化的学习路径，极大地提升了语言学习的效率和自主性。

数据集最近研究