Burmese Automatic Speech Recognition (ASR) Error Correction (AEC) Dataset

github2025-11-24 更新2025-11-26 收录

下载链接：

https://github.com/ye-kyaw-thu/myAEC

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是首个专注于缅甸语后ASR错误校正的数据集，包含ASR输出（含错误）、真实转录文本、对齐文件和IPA音标注释特征的并行数据。它支持低资源语音技术、NMT风格校正模型以及语音/语言特征集成的研究。数据集包含原始数据31.7k句和增强数据55.9k句，总计约90k句平行文本。

This is the first dataset focused on post-ASR error correction for the Burmese language. It provides parallel data including error-ridden ASR outputs, ground-truth transcriptions, alignment files, and IPA phonetic annotation features. This dataset supports research on low-resource speech technologies, NMT-style correction models, and the integration of speech and language features. It contains 31.7k original utterances and 55.9k augmented utterances, totaling approximately 90k parallel text samples.

创建时间：

2025-11-24

原始信息汇总

myAEC: 缅甸语自动语音识别纠错语料库

数据集概述

名称: myAEC (缅甸语ASR纠错语料库)
类型: 平行文本数据集
语言: 缅甸语
用途: 自动语音识别错误纠正研究
特点: 首个专注于缅甸语后ASR错误纠正的数据集

数据内容

平行数据构成

ASR输出（含错误）
真实转录文本
对齐文件
IPA音标标注特征

数据格式

原始文本格式（.txt）
TSV格式（含IPA标注）
对齐文件格式（.align）

数据来源

源语音数据集

数据集	训练时长(小时)	测试时长(小时)	MOSNet评分
OpenSLR80	3.70	0.42	4.06
FLEURS	15.95	1.64	4.14

注意: 本仓库仅包含后ASR文本对，不重新分发原始语音数据

数据集统计

数据分割	句子数量	错误音节数	真实音节数
原始数据	31.7k	1.25M	1.22M
增强数据	55.9k	2.17M	2.19M
测试数据	3.19k	0.13M	0.12M

数据创建流程

微调缅甸语ASR模型：
- Whisper (Tiny/Small/Medium/Large)
- MMS-1B ASR
生成ASR转录：
- 原始音频
- 数据增强音频（速度、音高、VTLP、噪声等）
使用myWord进行文本清理和音节分割
创建平行对：ASR错误 → 真实文本
提取可选特征：
- IPA音标特征（通过CRF G2P）
- 对齐特征（使用fast-align）

文件结构

主要目录

data/v1/original-data-v1/ - 原始平行语料
data/v1/tsv_files/ - TSV格式数据（含IPA标注）
data/v1/alignment-files/ - 对齐文件
code-and-configs/ - 代码和配置文件

数据文件示例

aec_without_feat.err.[train/test].txt - 无特征ASR错误
aec_without_feat.gt.[train/test].txt - 无特征真实文本
AEC_IPA.tsv - 含IPA标注的平行数据
Aug_Without_Feat.tsv - 增强数据无特征版本

许可证

许可证类型: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
许可证链接: https://creativecommons.org/licenses/by-nc-sa/4.0/

基准模型与工具

OpenNMT-py: AEC Transformer训练
CRF-suite: G2IPA（IPA提取）
fast-align: 词语对齐
transformers: OpenAI Whisper微调

引用信息

bibtex @inproceedings{lin2025aec, title={ASR Error Correction in Low-Resource Burmese with Alignment-Enhanced Transformers using Phonetic Features}, author={Lin, Ye Bhone and Aung, Thura and Thu, Ye Kyaw and Oo, Thazin Myint}, booktitle={2025 20th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP)}, pages={1--6}, year={2025}, keywords={Burmese language; Automatic Speech Recognition; ASR Error Correction; IPA; Alignment; Transformer}, location={Phuket, Thailand} }

联系方式

Ye Kyaw Thu: yekyaw.thu@nectec.or.th
Ye Bhone Lin: yebhonelin10@gmail.com
Thura Aung: 66011606@kmitl.ac.th

致谢

支持单位: Language Understanding Lab (Myanmar)
感谢OpenSLR80、FLEURS、myWord、myG2P和fast-align的贡献者

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，缅甸语自动语音识别纠错数据集的构建采用了多阶段技术流程。研究团队首先基于OpenSLR80和FLEURS两个开源缅甸语音数据集，通过微调Whisper系列模型及MMS-1B ASR系统生成初始识别文本。随后运用音频数据增强技术，包括语速调整、音高变换和背景噪声注入等手段，扩展了语音样本的声学多样性。所有文本均经过myWord工具进行音节级清洗与分割处理，最终形成包含3.17万原始句对与5.59万增强句对的平行语料，并同步生成国际音标特征标注与词汇对齐文件。

使用方法

该数据集支持端到端的神经网络纠错模型训练与应用验证。研究人员可通过加载TSV格式的平行语料，结合OpenNMT-py框架实现基于注意力的序列到序列模型训练。国际音标特征与对齐文件可作为辅助输入特征融入编码器层，增强模型对音系错误的捕获能力。评估阶段建议采用标准BLEU指标与音节错误率联合测评，同时提供经过微调的Whisper模型作为基线参照，确保研究成果的可复现性与横向可比性。

背景与挑战

背景概述

缅甸语自动语音识别纠错数据集由Ye Bhone Lin、Thura Aung等研究人员于2025年构建，作为低资源语言处理领域的重要突破，填补了缅甸语后处理纠错数据的空白。该数据集基于OpenSLR80和FLEURS两大开源语音语料库，通过微调Whisper与MMS-1B等先进ASR模型生成带错误的识别文本，并与人工校对真值构成平行语料。其创新性在于整合了音素特征标注与对齐文件，为研究语音识别误差修正机制提供了多维度数据支撑，显著推动了东南亚语言计算语言学的发展。

当前挑战

在低资源缅甸语ASR纠错任务中，核心挑战在于音素相近词汇的歧义消解与方言变体的适应性建模。数据集构建过程中面临双重困难：原始音频数据质量不均导致ASR错误模式复杂化，需通过语速调整、音高变换等增强技术扩充样本；同时缅甸语音节分割与国际音标特征提取依赖专业工具链，跨模态对齐的精度保障成为关键瓶颈。这些挑战共同凸显了低资源语言技术生态中数据标注标准化与多模态融合的迫切需求。

常用场景

经典使用场景

在低资源语言处理领域，该数据集为缅甸语自动语音识别后纠错任务提供了核心实验平台。研究者通过构建ASR错误输出与标准文本的平行语料，结合音素特征与对齐信息，能够系统评估神经机器翻译风格纠错模型的性能表现。典型应用包括训练基于Transformer的序列到序列模型，通过对比错误音节与正确音节的映射关系，显著提升缅甸语语音识别系统的文本准确率。

解决学术问题

该数据集有效解决了低资源语言场景下语音识别错误校正的三大挑战：针对缅甸语音素复杂性导致的音节分割错误，提供了音节级对齐标注；通过集成国际音标特征，缓解了传统文本纠错模型对语音学特征建模不足的问题；其增强版本通过数据增广技术，突破了低资源语言训练样本稀缺的瓶颈，为跨语言语音处理研究提供了可复现的基准框架。

实际应用

在现实应用层面，该数据集支撑的纠错技术已逐步融入缅甸语智能语音生态系统。具体体现在提升教育领域语音转录系统的鲁棒性，辅助新闻媒体实现高精度语音字幕生成，并为司法机构的语音证据转写提供技术保障。此外，融合音素特征的纠错模型在医疗问诊语音记录、跨境商务会谈转录等垂直场景中展现出显著的应用潜力。

数据集最近研究