five

mispeech/speechocean762

收藏
Hugging Face2026-04-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mispeech/speechocean762
下载链接
链接失效反馈
官方服务:
资源简介:
speechocean762是一个用于发音评分任务的公开数据集,包含5000个英语句子。所有说话者均为非母语者(母语为汉语),包括儿童和成人。数据集提供了句子、单词和音素级别的评分,评分由五位专家独立完成,以避免主观偏差。数据集的特征包括准确性、完整性、流畅性、韵律等多个方面,并且提供了说话者的年龄和性别信息。

speechocean762是一个用于发音评分任务的公开数据集,包含5000个英语句子。所有说话者均为非母语者(母语为汉语),包括儿童和成人。数据集提供了句子、单词和音素级别的评分,评分由五位专家独立完成,以避免主观偏差。数据集的特征包括准确性、完整性、流畅性、韵律等多个方面,并且提供了说话者的年龄和性别信息。
提供机构:
mispeech
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 数据规模: 1K<n<10K
  • 任务类别: 自动语音识别
  • 名称: speechocean762
  • 标签: 发音评分

配置

  • 配置名称: default
    • 数据文件:
      • 训练集: data/train-*
      • 测试集: data/test-*

数据集信息

  • 特征:

    • accuracy: int64
    • completeness: float64
    • fluency: int64
    • prosodic: int64
    • text: string
    • total: int64
    • words:
      • accuracy: int64
      • phones: 字符序列
      • phones-accuracy: 浮点数序列
      • stress: int64
      • text: string
      • total: int64
      • mispronunciations:
        • canonical-phone: string
        • index: int64
        • pronounced-phone: string
    • speaker: string
    • gender: string
    • age: int64
    • audio: audio
  • 分割:

    • 训练集:
      • 字节数: 291617098
      • 样本数: 2500
    • 测试集:
      • 字节数: 289610485
      • 样本数: 2500
  • 下载大小: 611820406

  • 数据集大小: 581227583

评分标准

  • 句子级别:

    • 准确性: 0-10
    • 完整性: 0.0-1.0
    • 流利度: 0-10
    • 韵律: 0-10
  • 单词级别:

    • 准确性: 0-10
    • 重音: {5, 10}
  • 音素级别:

    • 准确性: 0-2

示例

python

from datasets import load_dataset

test_set = load_dataset("mispeech/speechocean762", split="test")

len(test_set) 2500

next(iter(test_set)) {accuracy: 9, completeness: 10.0, fluency: 9, prosodic: 9, text: MARK IS GOING TO SEE ELEPHANT, total: 9, words: [{accuracy: 10, phones: [M, AA0, R, K], phones-accuracy: [2.0, 2.0, 1.8, 2.0], stress: 10, text: MARK, total: 10, mispronunciations: []}, {accuracy: 10, phones: [IH0, Z], phones-accuracy: [2.0, 1.8], stress: 10, text: IS, total: 10, mispronunciations: []}, {accuracy: 10, phones: [G, OW0, IH0, NG], phones-accuracy: [2.0, 2.0, 2.0, 2.0], stress: 10, text: GOING, total: 10, mispronunciations: []}, {accuracy: 10, phones: [T, UW0], phones-accuracy: [2.0, 2.0], stress: 10, text: TO, total: 10, mispronunciations: []}, {accuracy: 10, phones: [S, IY0], phones-accuracy: [2.0, 2.0], stress: 10, text: SEE, total: 10, mispronunciations: []}, {accuracy: 10, phones: [EH1, L, IH0, F, AH0, N, T], phones-accuracy: [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0], stress: 10, text: ELEPHANT, total: 10, mispronunciations: []}], speaker: 0003, gender: m, age: 6, audio: {path: 000030012.wav, array: array([-0.00119019, -0.00500488, -0.00283813, ..., 0.00274658,

      0.        ,  0.00125122]),

sampling_rate: 16000}}

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机辅助语言学习领域,发音评分技术扮演着关键角色。speechocean762数据集的构建过程体现了严谨的学术规范,其核心在于收集了5000个英语句子,所有发音者均为母语为汉语的非英语母语者,涵盖了儿童与成人两大群体。为确保评分质量,五位专家依据统一的评分标准,独立对每个样本进行多维度标注,有效避免了主观偏差。该数据集在句子、单词及音素三个层面提供了精细的人工标注,构建了一个结构清晰、标注一致的高质量语音资源。
使用方法
在具体应用层面,该数据集为发音评分模型的开发与评估提供了标准化平台。研究者可通过Hugging Face的`datasets`库便捷加载数据,其清晰划分的训练集与测试集便于进行模型训练与性能验证。数据集中丰富的结构化特征,如多级评分、音素序列及误发音标注,可直接用于训练端到端的自动发音评分系统。该资源支持对发音质量进行细粒度分析,是推动计算机辅助语言学习技术发展的关键基础设施。
背景与挑战
背景概述
在计算机辅助语言学习(CALL)系统中,发音评分技术扮演着关键角色,旨在通过自动化手段评估非母语者的语音质量。2021年,由多位研究人员联合发布的speechocean762数据集,为这一领域提供了重要的开源资源。该数据集聚焦于以汉语为母语的英语学习者,涵盖了儿童与成人两大群体,共收录5000句英语语音样本。其核心研究问题在于构建一个多层次、细粒度的发音评估体系,通过专家独立标注,在音素、单词和句子三个层级上提供精准的评分。这一数据集的推出,显著促进了发音评分模型的标准化与可复现性,为语音教育技术的实证研究奠定了坚实基础。
当前挑战
发音评分领域长期面临主观性与一致性难题,如何建立客观、可量化的评估标准是核心挑战。speechocean762数据集在构建过程中,需克服标注者间偏差,通过五位专家独立工作并统一度量标准以保障数据可靠性。同时,数据采集涵盖不同年龄与性别的非母语者,其发音差异性与背景多样性增加了标注的复杂性。在模型应用层面,该数据集要求算法能够融合多层次评分特征,从局部音素准确度到整体韵律流畅性,实现端到端的精细化评估,这对机器学习模型的表征与泛化能力提出了较高要求。
常用场景
经典使用场景
在计算机辅助语言学习领域,speechocean762数据集为发音评估任务提供了经典的应用场景。该数据集通过包含5000个非母语英语句子,覆盖了儿童与成人两类说话者,并提供了音素、单词和句子三个层次的精细标注。研究者通常利用这些多层次的发音质量评分,构建端到端的自动发音评估模型,以模拟专家评分标准,从而实现对非母语学习者发音准确度、流畅性、完整性和韵律特征的自动化评估。
解决学术问题
该数据集有效解决了发音评估研究中缺乏高质量、多维度标注的非母语英语语料库的难题。其提供的多层次人工评分,包括音素级别的发音正确性、单词级别的重音准确性以及句子级别的综合表现,为学术界探索发音错误的细粒度检测与量化提供了可靠基准。这推动了发音评分模型从单一维度向多维度综合评估的发展,并为研究发音错误模式与说话者年龄、性别等因素的关联提供了数据支撑。
实际应用
在实际应用中,speechocean762数据集直接服务于智能语言学习系统的开发。基于该数据集训练的模型可集成到在线教育平台或移动应用程序中,为英语学习者提供即时、客观的发音反馈。系统能够精准指出用户在特定音素、单词重音或句子韵律上的不足,并给出改进建议,从而提供个性化的学习路径,极大地提升了语言学习的效率和自主性。
数据集最近研究
最新研究方向
在计算机辅助语言学习领域,发音评估技术正朝着精细化与个性化方向演进。speechocean762数据集凭借其多层级标注特性,成为推动非母语英语发音研究的关键资源。当前前沿研究聚焦于利用深度学习模型,如端到端神经网络,实现从音素到句子层面的自动评分,并探索跨语言迁移学习以提升模型泛化能力。同时,结合该数据集中的年龄与性别信息,研究者正开发自适应评分系统,旨在为不同学习者群体提供定制化反馈。这些进展不仅促进了智能教育工具的发展,也为语音处理技术在多元文化背景下的应用奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作