OMAPL Corpus
收藏OMPAL语料库数据集概述
数据集简介
OMPAL语料库是一个全面的汉语普通话发音评估数据集,包含来自母语者的82个普通话发音样本和来自法语母语学习者的1,768个普通话发音样本。每个发音样本均由四位具有专业普通话教学经验的专家在词级和句子级进行了细致标注。
语料库统计
- 音频文件总数:1,850个.wav文件
- 母语者音频文件:82个.wav文件
- 非母语者音频文件:1,768个.wav文件
- 总说话人数:49人
- 母语说话人:3人(SPEAKER01*)
- 法语学习者:46人(SPEAKER02*)
法语学习者人口统计包括21名一年级学生(5名男性和16名女性)和25名二年级学生(8名男性和17名女性)。
目录结构
OMPAL/ ├── README.md ├── native_scores.json ├── non-native_scores.json ├── non-native_scores-detail.json ├── train/ │ ├── train_1_scores.json │ ├── train_2_scores.json │ ├── train_3_scores.json │ ├── train_4_scores.json │ └── train_5_scores.json ├── test/ │ ├── test_1_scores.json │ ├── test_2_scores.json │ ├── test_3_scores.json │ ├── test_4_scores.json │ └── test_5_scores.json └── wav/ ├── SPEAKER01001/ ├── SPEAKER01002/ ├── SPEAKER01003/ ├── SPEAKER02001/ ├── SPEAKER02002/ └── ...
文件命名规范
- 音频文件格式:{speaker_id}{utterance_id}.wav
- 示例:00100101.wav(说话人01001,发音01)
- 示例:00200201.wav(说话人02002,发音01)
标注与评分指标
所有发音样本由四位专门从事汉语作为第二语言教学的资深专家独立标注。
词级评分(声调/辅音/元音)
| 分数 | 含义 |
|---|---|
| 1 | 发音正确 |
| 0 | 发音错误 |
句子级评分
所有句子级评分均为1(最差)到5(最好)的整数,包含三个维度:
准确度
| 分数 | 描述 |
|---|---|
| 5 | 句子中的整体发音和声调优秀,无明显错误 |
| 4 | 句子中的整体发音和声调良好,有少量错误 |
| 3 | 虽然有一些发音和声调错误,但不影响对句子的整体理解 |
| 2 | 发音较差,有许多发音和声调错误 |
| 1 | 发音非常差,句子中只有少数词语可理解 |
流利度
| 分数 | 描述 |
|---|---|
| 5 | 非常流利 |
| 4 | 总体流利,仅在部分地方有少量停顿 |
| 3 | 中等流利,有多次停顿但句子中没有中断错误 |
| 2 | 不流利,有多次停顿和句子中断错误 |
| 1 | 非常不流利 |
韵律
| 分数 | 描述 |
|---|---|
| 5 | 语调自然,语速稳定,节奏如同母语者 |
| 4 | 语调自然,语速基本稳定,但有少量结巴和不寻常停顿 |
| 3 | 语速不稳定,时快时慢,有少量结巴和不寻常停顿 |
| 2 | 语速不稳定,有许多不寻常停顿 |
| 1 | 语速不稳定,无法读出完整句子 |
实验设置
为确保对模型在OMPAL语料库上发音评估性能的稳健评估,使用平衡性别和熟练度水平的标准随机选择了五个说话人组合作为测试集。
平衡标准
每个测试组合确保:
- 母语参考:4个非母语说话人和1个母语说话人
- 性别平衡:至少2名男性和2名女性说话人
- 熟练度平衡:至少2名一年级和2名二年级说话人
- 分数分类:46名法语学习者根据平均发音分数的四分位数分为4个水平
许可证
OMPAL采用知识共享署名4.0国际(CC BY 4.0)许可证。
引用
bibtex @inproceedings{hsieh25b_interspeech, title = {{OMPAL: Bridging Speech and Learning with an Open-Source Mandarin Pronunciation Assessment Corpus for Global Learners}}, author = {Wen-Wei Hsieh and Hao-Wei Chi and Kuan-Chen Wang and Ping-Cheng Yeh and Te-hsin Liu and Chen-Yu Chiang}, year = {2025}, booktitle = {{Interspeech 2025}}, pages = {2415--2419}, doi = {10.21437/Interspeech.2025-983}, issn = {2958-1796}, }




