asr-25lang-30k-26-04-v1
收藏Hugging Face2026-01-26 更新2026-01-27 收录
下载链接:
https://huggingface.co/datasets/mutisya/asr-25lang-30k-26-04-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个非洲语言的音频和转录文本数据,支持的语言配置包括bem_Latn、ful_Latn、kln_Latn、lin_Latn_v2、lug_Latn_v3、mas_Latn、nso_Latn_v2、nya_Latn、orm_Latn、orm_Latn_v2、ven_Latn、xho_Latn、zul_Latn_v2和zul_Latn_v3。每个配置包含训练集和测试集,音频采样率为16000Hz,转录文本为字符串格式。数据集规模从数百万到数十亿字节不等,示例数量从数千到数万。适用于自动语音识别(ASR)任务。
This dataset comprises audio and corresponding transcribed text data across multiple African languages. The supported language configurations include bem_Latn, ful_Latn, kln_Latn, lin_Latn_v2, lug_Latn_v3, mas_Latn, nso_Latn_v2, nya_Latn, orm_Latn, orm_Latn_v2, ven_Latn, xho_Latn, zul_Latn_v2 and zul_Latn_v3. Each configuration includes a training set and a test set. The audio samples have a sampling rate of 16000 Hz, and the transcribed texts are in string format. The dataset size ranges from several million to several billion bytes, with the number of samples varying from thousands to tens of thousands. This dataset is tailored for automatic speech recognition (ASR) tasks.
创建时间:
2026-01-24
原始信息汇总
数据集概述
基本信息
- 数据集名称: asr-25lang-30k-26-04-v1
- 数据集地址: https://huggingface.co/datasets/mutisya/asr-25lang-30k-26-04-v1
数据集结构
本数据集包含多个语言配置,每个配置均包含音频和对应的文本转录,并划分为训练集和测试集。
通用特征
所有语言配置均包含以下特征:
- audio: 音频数据,采样率为16000 Hz。
- transcription: 对应的文本转录,数据类型为字符串。
语言配置详情
以下是各语言配置的具体信息:
bem_Latn
- 训练集: 11,174 个样本,大小约 2.19 GB。
- 测试集: 1,241 个样本,大小约 246.60 MB。
- 下载大小: 约 2.39 GB。
- 数据集总大小: 约 2.44 GB。
ful_Latn
- 训练集: 14,255 个样本,大小约 23.47 GB。
- 测试集: 1,540 个样本,大小约 2.46 GB。
- 下载大小: 约 20.46 GB。
- 数据集总大小: 约 25.93 GB。
kln_Latn
- 训练集: 45,000 个样本,大小约 26.45 GB。
- 测试集: 2,409 个样本,大小约 1.39 GB。
- 下载大小: 约 25.35 GB。
- 数据集总大小: 约 27.84 GB。
lin_Latn_v2
- 训练集: 15,912 个样本,大小约 7.59 GB。
- 测试集: 1,033 个样本,大小约 441.25 MB。
- 下载大小: 约 6.68 GB。
- 数据集总大小: 约 8.03 GB。
lug_Latn_v3
- 训练集: 45,000 个样本,大小约 17.02 GB。
- 测试集: 2,828 个样本,大小约 1.15 GB。
- 下载大小: 约 15.34 GB。
- 数据集总大小: 约 18.17 GB。
mas_Latn
- 训练集: 45,000 个样本,大小约 27.43 GB。
- 测试集: 1,435 个样本,大小约 852.91 MB。
- 下载大小: 约 25.87 GB。
- 数据集总大小: 约 28.28 GB。
nso_Latn_v2
- 训练集: 45,000 个样本,大小约 4.93 GB。
- 测试集: 2,829 个样本,大小约 336.67 MB。
- 下载大小: 约 5.05 GB。
- 数据集总大小: 约 5.26 GB。
nya_Latn
- 训练集: 8,075 个样本,大小约 2.49 GB。
- 测试集: 897 个样本,大小约 270.94 MB。
- 下载大小: 约 2.71 GB。
- 数据集总大小: 约 2.76 GB。
orm_Latn
- 训练集: 5,450 个样本,大小约 3.04 GB。
- 测试集: 1,659 个样本,大小约 914.98 MB。
- 下载大小: 约 3.59 GB。
- 数据集总大小: 约 3.96 GB。
orm_Latn_v2
- 训练集: 42,073 个样本,大小约 8.80 GB。
- 测试集: 4,674 个样本,大小约 987.31 MB。
- 下载大小: 约 9.43 GB。
- 数据集总大小: 约 9.79 GB。
ven_Latn
- 训练集: 45,000 个样本,大小约 5.87 GB。
- 测试集: 2,805 个样本,大小约 360.74 MB。
- 下载大小: 约 6.08 GB。
- 数据集总大小: 约 6.23 GB。
xho_Latn
- 训练集: 43,867 个样本,大小约 6.11 GB。
- 测试集: 2,770 个样本,大小约 358.27 MB。
- 下载大小: 约 6.41 GB。
- 数据集总大小: 约 6.47 GB。
zul_Latn_v2
- 训练集: 41,862 个样本,大小约 6.01 GB。
- 测试集: 2,802 个样本,大小约 463.72 MB。
- 下载大小: 约 6.36 GB。
- 数据集总大小: 约 6.48 GB。
zul_Latn_v3
- 训练集: 16,150 个样本,大小约 21.95 GB。
- 测试集: 997 个样本,大小约 1.37 GB。
- 下载大小: 约 20.27 GB。
- 数据集总大小: 约 23.32 GB。
数据文件结构
每个语言配置的数据文件均按以下模式组织:
- 训练集文件路径:
{config_name}/train-* - 测试集文件路径:
{config_name}/test-*
备注
数据集卡片信息待补充。
搜集汇总
数据集介绍

构建方式
在语音识别技术日益普及的背景下,asr-25lang-30k-26-04-v1数据集通过系统化采集与标注流程构建而成。该数据集涵盖了多种非洲语言,包括班巴语、富拉语、卡伦津语等,每个语言配置均包含音频与对应转录文本。数据以16kHz采样率统一处理,确保音频质量一致,并划分为训练集与测试集,便于模型开发与评估。构建过程中注重语言多样性,为低资源语言研究提供了宝贵资源。
特点
该数据集展现出显著的多语言特性,覆盖十余种非洲本土语言,每种语言均提供大量音频样本与精确转录。音频数据采用标准化16kHz采样率,保证了信号处理的兼容性。数据集规模庞大,部分语言配置如卡伦津语和卢干达语包含数万条样本,为训练鲁棒的语音识别模型奠定了数据基础。同时,严格划分的训练与测试集支持可靠的性能验证,有助于推动语言技术在全球范围内的公平发展。
使用方法
研究人员可利用该数据集进行多语言自动语音识别模型的训练与评估。通过HuggingFace平台加载相应语言配置,即可访问音频文件及其转录文本。典型应用流程包括数据预处理、特征提取,并利用训练集优化模型参数,随后在测试集上衡量识别准确率。该数据集适用于探索跨语言迁移学习、低资源语言建模等前沿课题,为语音技术在多语言环境中的实践提供实证支持。
背景与挑战
背景概述
在自动语音识别技术蓬勃发展的背景下,多语言语音数据的稀缺性,尤其是非洲本土语言资源的匮乏,构成了该领域研究的主要瓶颈。asr-25lang-30k-26-04-v1数据集应运而生,旨在为包括本巴语、富拉语、卡伦津语等在内的多种非洲语言提供高质量的语音-文本配对资源。该数据集由致力于语言技术民主化的研究机构或团队构建,其核心研究问题聚焦于如何为资源稀缺语言构建可扩展的语音识别基准,从而推动语音技术在全球范围内的包容性发展,对低资源语言的信息化进程具有深远影响。
当前挑战
该数据集致力于解决低资源语言自动语音识别领域的核心挑战,即如何在数据稀缺条件下训练出鲁棒且准确的语音识别模型。具体挑战体现在所解决的领域问题上:不同语言间音素、声调和语法结构的巨大差异对单一模型的泛化能力提出了严峻考验;同时,低资源语言社区内方言变体和录音环境的多样性,导致音频质量与文本转录的一致性难以保证。在构建过程中,挑战则集中于如何系统性地收集和标注多种濒危或使用范围有限的语言语音数据,并确保其标注的准确性与文化适宜性,这需要克服本地化专家资源不足、标准化转录规范缺失等多重困难。
常用场景
经典使用场景
在语音识别研究领域,多语言语音数据的稀缺性长期制约着模型泛化能力的提升。asr-25lang-30k-26-04-v1数据集通过整合25种语言的音频与文本对,为自动语音识别模型的训练与评估提供了标准化资源。该数据集尤其适用于训练端到端语音识别系统,研究人员能够利用其丰富的语言变体,探索跨语言声学与语言特征的建模方法,从而优化模型在低资源语言上的识别性能。
实际应用
在实际应用层面,该数据集为开发包容性语音技术奠定了数据基础。基于其训练的多语言语音识别模型,可集成于智能助理、实时翻译工具及教育平台中,服务于非洲及全球多元语言社区。例如,在医疗、金融等公共服务领域,此类技术能够打破语言壁垒,为使用富拉尼语、祖鲁语等语言的人群提供便捷的语音交互体验,促进数字普惠。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦低资源语言语音识别的经典研究工作。这些工作通常涉及多任务学习、迁移学习及自适应训练策略,旨在提升模型在数据稀缺语言上的鲁棒性。部分研究进一步构建了语音合成、语言检测等下游任务基准,形成了以多语言语音为核心的技术生态,持续推动着语音人工智能在全球化场景中的深入应用。
以上内容由遇见数据集搜集并总结生成



