OMAPL Corpus

github2025-10-09 更新2025-10-10 收录

下载链接：

https://github.com/phantomhsieh/OMPAL-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

OMAPL语料库是一个全面的普通话发音评估数据集，包含来自母语者的82个普通话语音样本和来自学习普通话的法语母语者的1,768个普通话语音样本。每个语音样本均由四位具有专业普通话教学经验的专家在单词和句子级别进行了细致标注。

The OMAPL Corpus is a comprehensive Mandarin pronunciation assessment dataset. It contains 82 Mandarin speech samples from native Mandarin speakers and 1,768 Mandarin speech samples from French native speakers who are learning Mandarin. Each speech sample has been meticulously annotated at both word and sentence levels by four experts with professional Mandarin teaching experience.

创建时间：

2025-10-09

原始信息汇总

OMPAL语料库数据集概述

数据集简介

OMPAL语料库是一个全面的汉语普通话发音评估数据集，包含来自母语者的82个普通话发音样本和来自法语母语学习者的1,768个普通话发音样本。每个发音样本均由四位具有专业普通话教学经验的专家在词级和句子级进行了细致标注。

语料库统计

音频文件总数：1,850个.wav文件
母语者音频文件：82个.wav文件
非母语者音频文件：1,768个.wav文件
总说话人数：49人
母语说话人：3人（SPEAKER01*）
法语学习者：46人（SPEAKER02*）

法语学习者人口统计包括21名一年级学生（5名男性和16名女性）和25名二年级学生（8名男性和17名女性）。

目录结构

OMPAL/ ├── README.md ├── native_scores.json ├── non-native_scores.json ├── non-native_scores-detail.json ├── train/ │ ├── train_1_scores.json │ ├── train_2_scores.json │ ├── train_3_scores.json │ ├── train_4_scores.json │ └── train_5_scores.json ├── test/ │ ├── test_1_scores.json │ ├── test_2_scores.json │ ├── test_3_scores.json │ ├── test_4_scores.json │ └── test_5_scores.json └── wav/ ├── SPEAKER01001/ ├── SPEAKER01002/ ├── SPEAKER01003/ ├── SPEAKER02001/ ├── SPEAKER02002/ └── ...

文件命名规范

音频文件格式：{speaker_id}{utterance_id}.wav
示例：00100101.wav（说话人01001，发音01）
示例：00200201.wav（说话人02002，发音01）

标注与评分指标

所有发音样本由四位专门从事汉语作为第二语言教学的资深专家独立标注。

词级评分（声调/辅音/元音）

分数	含义
1	发音正确
0	发音错误

句子级评分

所有句子级评分均为1（最差）到5（最好）的整数，包含三个维度：

准确度

分数	描述
5	句子中的整体发音和声调优秀，无明显错误
4	句子中的整体发音和声调良好，有少量错误
3	虽然有一些发音和声调错误，但不影响对句子的整体理解
2	发音较差，有许多发音和声调错误
1	发音非常差，句子中只有少数词语可理解

流利度

分数	描述
5	非常流利
4	总体流利，仅在部分地方有少量停顿
3	中等流利，有多次停顿但句子中没有中断错误
2	不流利，有多次停顿和句子中断错误
1	非常不流利

韵律

分数	描述
5	语调自然，语速稳定，节奏如同母语者
4	语调自然，语速基本稳定，但有少量结巴和不寻常停顿
3	语速不稳定，时快时慢，有少量结巴和不寻常停顿
2	语速不稳定，有许多不寻常停顿
1	语速不稳定，无法读出完整句子

实验设置

为确保对模型在OMPAL语料库上发音评估性能的稳健评估，使用平衡性别和熟练度水平的标准随机选择了五个说话人组合作为测试集。

平衡标准

每个测试组合确保：

母语参考：4个非母语说话人和1个母语说话人
性别平衡：至少2名男性和2名女性说话人
熟练度平衡：至少2名一年级和2名二年级说话人
分数分类：46名法语学习者根据平均发音分数的四分位数分为4个水平

许可证

OMPAL采用知识共享署名4.0国际（CC BY 4.0）许可证。

引用

bibtex @inproceedings{hsieh25b_interspeech, title = {{OMPAL: Bridging Speech and Learning with an Open-Source Mandarin Pronunciation Assessment Corpus for Global Learners}}, author = {Wen-Wei Hsieh and Hao-Wei Chi and Kuan-Chen Wang and Ping-Cheng Yeh and Te-hsin Liu and Chen-Yu Chiang}, year = {2025}, booktitle = {{Interspeech 2025}}, pages = {2415--2419}, doi = {10.21437/Interspeech.2025-983}, issn = {2958-1796}, }

搜集汇总

数据集介绍

构建方式

在汉语作为第二语言教学研究领域，OMAPL语料库的构建体现了严谨的学术规范。该数据集采集了3名汉语母语者的82段发音样本及46名法语母语学习者的1768段汉语发音，所有音频均以标准WAV格式保存。为确保标注质量，四名具备专业汉语教学背景的专家对每个发音样本进行了独立标注，涵盖字词层面的音素、声调准确性及句子层面的整体发音表现。数据划分采用五组平衡测试集设计，综合考虑了说话者性别、学习年限及发音水平等多维因素，为发音评估研究提供了可靠的数据基础。

特点

作为面向汉语发音评估的专用语料库，OMAPL的突出特点在于其精细的多层级标注体系。在字词层面，专家对每个音节的辅音、元音和声调进行二元正确性判定；句子层面则采用五级评分制，从准确度、流利度和韵律特征三个维度全面评估发音质量。数据集特别设计了母语者与学习者的对比结构，82段母语发音为学习者发音提供了天然参照标准。此外，数据集严格遵循CC BY 4.0开源协议，确保了学术使用的便捷性与规范性。

使用方法

针对发音评估模型的开发需求，OMAPL语料库提供了标准化的使用流程。研究者可通过解析JSON格式的标注文件获取多层次评分数据，其中train和test目录下分别包含五组预划分的数据集，支持交叉验证实验。音频文件按说话者ID分层存储，文件命名采用{speaker_id}{utterance_id}.wav的统一规范。实验设置建议采用原论文的五组平衡测试方案，每组测试集均包含一名母语者及四名在性别、学习年限和发音水平上均衡配置的学习者，这种设计能有效评估模型在不同发音特征群体上的泛化能力。

背景与挑战

背景概述

在第二语言习得研究领域，发音质量评估一直是语音技术应用的核心课题。OMAPL语料库作为2025年发布的普通话发音评估数据集，由国际语音通信协会Interspeech会议正式收录，研究团队汇集了语音计算与语言教育领域的跨学科学者。该数据集聚焦法语母语者学习普通话过程中的发音偏误现象，通过系统采集46名法语学习者的1,768条发音样本与3名母语者的82条标准发音参照，构建了涵盖音段、声调、韵律等多维度的精细标注体系。其创新性在于将语音技术与实际教学需求相结合，为计算机辅助发音教学系统提供了重要的数据支撑，推动了智能化语言教育的发展。

当前挑战

在发音评估领域，如何准确量化非母语者的语音偏误始终是核心难题。OMAPL语料库构建过程中面临双重挑战：其一，发音质量的多维度标注需要平衡主观性与客观性，四位专家对音素清晰度、声调准确性和韵律自然度的评分需保持高度一致性；其二，数据采集涉及46名法语背景学习者，其母语负迁移现象导致元音鼻化、声调混淆等系统性偏误，需设计能捕捉这些特征的标注框架。实验设计还需克服样本规模限制，通过五组平衡性别与学习年限的测试组合，确保模型评估的稳健性，这对小规模语料库的效用最大化提出了严格要求。

常用场景

经典使用场景

在语音学习技术领域，OMAPL语料库为普通话发音评估研究提供了标准化实验平台。该数据集通过对比46名法语母语者与3名汉语母语者的1,850条语音样本，构建了涵盖音素、声调到语句韵律的多层次评估体系。其经典应用体现在通过五组平衡设计的测试集组合，系统验证发音评估模型在跨语言学习者中的泛化能力，为二语习得研究提供量化分析基础。

衍生相关工作

基于该数据集标注体系，研究者开发了融合声学特征与语言学约束的端到端评估模型。典型工作包括采用多任务学习框架同步预测音素正确率和语句流畅度，以及结合注意力机制建模声学-文本对齐关系。这些模型在Interspeech等会议发表的系列研究中不断优化，推动了发音评估技术从孤立错误检测向整体语音质量评价的范式转变。

数据集最近研究