fleurs_openslr42_mpwt

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/KrorngAI/fleurs_openslr42_mpwt

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高棉语（Khmer）的语音识别数据集，由google/fleurs、openslr/openslr42和经过清洗的seanghay/khmer_mpwt_speech三个数据集组合而成。数据集包含音频和对应的转录文本，音频采样率为16000Hz。数据集经过预处理，包括手动校正转录错误、文本归一化、过滤过长的文本序列和音频片段。数据集分为训练集和测试集，可用于自动语音识别和文本到语音等任务。

创建时间：

2025-10-20

原始信息汇总

数据集概述

基本信息

数据集名称: KrorngAI/fleurs_openslr42_mpwt
任务类别: 自动语音识别、文本转语音
语言: 高棉语 (km)
标签: openslr42, fleurs, asr

数据组成

特征结构

音频特征:
- 采样率: 16000 Hz
文本特征:
- 转录文本 (字符串格式)

数据划分

训练集:
- 样本数量: 5778
- 数据大小: 3125353264.6964455 字节
测试集:
- 样本数量: 1683
- 数据大小: 1004055850.0756147 字节

存储信息

下载大小: 3490774262 字节
数据集总大小: 4129409114.7720604 字节

数据来源与处理

数据来源

google/fleurs
openslr/openslr42
seanghay/khmer_mpwt_speech

处理流程

清理seanghay/khmer_mpwt_speech数据集：手动校正2058行错误转录
标准化转录文本：
- 移除不可见空格
- 处理特殊字符（ៗ）、数字、货币、日期为高棉文本
- 按空格分隔每个单词
文本过滤：使用Whisper-Small分词器编码文本，过滤长度超过448个标记的序列
音频过滤：过滤时长超过30秒的音频
音频重采样：统一重采样至16000kHz

文件配置

配置名称: default
训练集文件路径: data/train-*
测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在语音识别技术蓬勃发展的背景下，fleurs_openslr42_mpwt数据集通过整合多个公开语音资源构建而成。该过程首先对原始数据集中的转录文本进行了人工校正，修正了2058条错误记录；随后采用标准化处理，移除不可见空格并将数字、货币等符号转换为高棉语文本，同时以空格分隔词语；利用Whisper-Small分词器进行序列长度筛选，剔除超过448个标记的文本；最后通过音频时长过滤与重采样技术，确保所有音频样本统一为16kHz采样率且时长不超过30秒。

特点

作为高棉语语音研究的重要资源，本数据集具有鲜明的技术特征。其音频数据均采用16kHz标准采样率，包含训练集5778条与测试集1683条样本，总容量约4.1GB。所有转录文本均经过严格的标准化处理，既保留了高棉语特有的字符特征（如重复符号“ៗ”），又通过统一的分词规范提升了机器可读性。数据集特别注重样本质量，通过多重过滤机制确保了音频与文本的对应准确性，为语音识别与文本转语音任务提供了可靠的数据支撑。

使用方法

针对多模态语言处理任务的应用需求，本数据集支持自动语音识别与文本转语音两大核心功能。研究人员可直接调用标准化的音频特征矩阵与对应转录文本，利用预划分的训练测试集开展模型训练与评估。在具体实施过程中，建议优先加载16kHz采样率的音频数据，配合经过字符标准化处理的文本标签进行端到端建模。对于序列生成任务，可依据数据集提供的分词规范构建词汇表，并注意448个标记的序列长度限制以确保模型兼容性。

背景与挑战

背景概述

高棉语自动语音识别研究长期受限于数据稀缺性，fleurs_openslr42_mpwt数据集通过整合谷歌FLEURS、OpenSLR42及柬埔寨邮电部语音数据，构建了面向低资源语言的标准化语料库。该数据集由社区研究者于2022年后逐步构建，采用多源数据融合策略，针对东南亚语言特性设计了文本规范化流程，为跨语言语音模型训练提供了重要基础。其16kHz采样率音频与严格清洗的文本转录，显著提升了高棉语语音技术研究的可复现性与模型泛化能力。

当前挑战

构建过程面临原始转录质量参差与语言特性复杂双重挑战：需人工校正两千余条错误转录，处理高棉语特有的重复符号‘ៗ’及数字货币日期文本化；技术层面需通过Whisper分词器过滤超长序列，并限制音频时长与采样率以适配主流模型。在领域问题层面，该数据集致力于解决低资源语言语音识别中声学模型适配困难、文本表征稀疏等核心难题，其多方言覆盖与噪声环境采样亦对模型鲁棒性提出更高要求。

常用场景

解决学术问题

该数据集有效解决了高棉语等低资源语言在语音识别研究中数据匮乏的难题。通过融合多源数据并实施文本规范化处理，它显著提升了语音识别模型对复杂语言现象（如重复字符、数字货币转换）的解析精度。其严格的质量控制标准为学术界提供了可复现的实验基础，推动了低资源语言语音技术研究的标准化进程。

衍生相关工作

该数据集的发布催生了系列创新研究，例如基于Whisper架构的高棉语语音识别优化工作。研究者通过引入动态分词策略与长度过滤机制，显著提升了长音频的处理效率。相关成果进一步衍生出跨语言迁移学习框架，为东南亚语系的语音技术研究提供了可扩展的方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集