asr-25lang-30k-26-04-v2-lnx
收藏Hugging Face2026-01-26 更新2026-01-27 收录
下载链接:
https://huggingface.co/datasets/mutisya/asr-25lang-30k-26-04-v2-lnx
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种非洲语言的音频记录及其转录文本,涵盖语言如本巴语(bem_Latn)、富拉语(ful_Latn)、基库尤语(kik_Latn)等。每个语言配置均包含以下特征:音频(采样率为16000 Hz)和文本转录(字符串类型)。数据集分为训练集和测试集,提供了每个分集的字节大小和样本数量。此外,还列出了下载大小和数据集总大小。这些数据适用于涉及音频和文本处理的机器学习任务,如自动语音识别(ASR)或语音合成。
创建时间:
2026-01-24
原始信息汇总
数据集概述
基本信息
- 数据集地址: https://huggingface.co/datasets/mutisya/asr-25lang-30k-26-04-v2-lnx
- 数据集名称: asr-25lang-30k-26-04-v2-lnx
- 语言数量: 25种语言配置
- 主要用途: 自动语音识别
数据结构与特征
- 特征: 每个配置包含两个特征:
audio: 音频数据,采样率为16000 Hz。transcription: 对应的文本转录,数据类型为字符串。
- 数据分割: 每个配置均包含
train(训练集)和test(测试集)两个分割。
语言配置详情
| 配置名称 | 训练集样本数 | 测试集样本数 | 训练集大小(字节) | 测试集大小(字节) | 下载大小(字节) | 数据集总大小(字节) |
|---|---|---|---|---|---|---|
| bem_Latn | 11174 | 1241 | 2192425402.554 | 246600578.152 | 2385516087 | 2439025980.706 |
| ful_Latn | 14255 | 1540 | 23468114860.36 | 2462892899.88 | 20450851302 | 25931007760.24 |
| kam_Latn | 25436 | 2827 | 4130861052.192 | 451837899.144 | 4077197603 | 4582698951.3359995 |
| kik_Latn | 45000 | 5000 | 7723556059.0 | 851169304.0 | 7611635691 | 8574725363.0 |
| kln_Latn | 45000 | 2409 | 25988901645.0 | 1385242764.648 | 24988895378 | 27374144409.648 |
| lin_Latn | 15912 | 1033 | 7587255562.264 | 441248209.776 | 6672791851 | 8028503772.04 |
| lug_Latn | 45000 | 2828 | 17020339337.0 | 1149612714.016 | 16203290768 | 18169952051.016 |
| luo_Latn | 45000 | 5000 | 7911183233.0 | 863427937.0 | 7860572894 | 8774611170.0 |
| luy_Latn | 22859 | 985 | 22249394358.048 | 955373533.0 | 21249532844 | 23204767891.048 |
| mas_Latn | 27234 | 1435 | 16577887308.048 | 852913990.32 | 15947823695 | 17430801298.368 |
| mer_Latn | 45000 | 5000 | 7369196057.0 | 822592788.0 | 7371316754 | 8191788845.0 |
| nbl_Latn | 39375 | 3107 | 5909590517.0 | 535845968.304 | 6291694482 | 6445436485.304 |
| nso_Latn | 45000 | 2829 | 4926973185.0 | 336668813.888 | 5048160800 | 5263641998.8880005 |
| nya_Latn | 8075 | 897 | 2494053320.325 | 270941209.0 | 2710899197 | 2764994529.325 |
| orm_Latn | 5450 | 1659 | 3040026222.4 | 914976672.648 | 3586087275 | 3955002895.0480003 |
| orm_Latn_v2 | 42073 | 4674 | 8802271919.583 | 987314417.728 | 9422560347 | 9789586337.311 |
| som_Latn | 45000 | 5000 | 7580654664.0 | 840814760.0 | 7607174592 | 8421469424.0 |
| sot_Latn | 45000 | 2722 | 5100815877.0 | 292349000.584 | 5367043926 | 5393164877.584 |
| ssw_Latn | 40662 | 2793 | 6072050741.264 | 372541014.496 | 6297164406 | 6444591755.76 |
| swh_Latn | 45000 | 5000 | 7931633165.0 | 891988204.0 | 8204762665 | 8823621369.0 |
| swh_Latn_v2 | 28179 | 2195 | 16127094329.088 | 1261703688.04 | 16272260699 | 17388798017.128 |
| tsn_Latn | 45000 | 2889 | 5042484094.0 | 318360251.208 | 5311123117 | 5360844345.208 |
| tso_Latn | 44896 | 2905 | 6047427101.312 | 415970770.16 | 6318287351 | 6463397871.472 |
| ven_Latn | 45000 | 2805 | 5873769886.0 | 360738041.96 | 6074802179 | 6234507927.96 |
| wol_Latn | 13998 | 1120 | 1940336584.256 | 140056653.64 | 2075803101 | 2080393237.896 |
| xho_Latn | 43867 | 2770 | 6113809904.024 | 358265455.44 | 6401609268 | 6472075359.464 |
| zul_Latn_v2 | 41862 | 2802 | 6012454176.664 | 463715610.344 | 6351712433 | 6476169787.007999 |
数据文件组织
每个语言配置的数据文件按以下模式组织:
{config_name}/train-*: 训练集文件。{config_name}/test-*: 测试集文件。
搜集汇总
数据集介绍

构建方式
在语音识别领域,多语言数据集的构建对于推动低资源语言技术发展具有关键意义。asr-25lang-30k-26-04-v2-lnx数据集通过系统化采集25种非洲语言的音频及其对应拉丁字母转写文本而构建,每种语言均以独立配置形式组织,涵盖诸如斯瓦希里语、祖鲁语、科萨语等代表性语种。数据构建过程注重音频质量的一致性,所有样本均采用16kHz采样率进行标准化处理,并严格划分训练集与测试集,确保模型评估的可靠性。这种结构化的构建方式为跨语言语音识别研究提供了坚实的多模态基础。
特点
该数据集的核心特征在于其广泛的语言覆盖与精细的数据组织。它囊括了25种非洲本土语言,每种语言均配备独立的音频-文本配对数据,其中音频特征统一为16kHz采样率,文本转录则采用拉丁字母形式,便于跨语言模型处理。数据规模呈现显著差异,例如富拉尼语(ful_Latn)的训练集包含约1.4万样本,而卡伦津语(kln_Latn)则达到4.5万样本,体现了对语言资源不平衡性的真实反映。数据集通过版本迭代(如orm_Latn_v2)持续扩充与优化,为低资源语言语音技术研究提供了丰富的实验素材。
使用方法
在语音识别模型开发中,该数据集支持灵活的多语言训练与评估流程。研究者可通过HuggingFace数据集库直接加载特定语言配置,如加载“swh_Latn”以获取斯瓦希里语数据,每个配置均包含训练与测试分割,便于实施监督学习。音频数据可直接输入声学模型进行特征提取,转录文本则用于训练语言模型或计算词错误率等评估指标。该结构允许进行单语言模型训练、多语言联合训练或跨语言迁移学习实验,为探索非洲语言语音识别技术提供了标准化、可复现的实验框架。
背景与挑战
背景概述
在语音识别技术日益普及的背景下,针对低资源语言的自动语音识别(ASR)研究显得尤为迫切。asr-25lang-30k-26-04-v2-lnx数据集由研究机构于2024年4月构建,旨在涵盖25种非洲本土语言,如斯瓦希里语、祖鲁语、阿姆哈拉语等,以拉丁字母转写形式呈现。该数据集的核心研究问题聚焦于解决低资源语言在语音识别领域的数据稀缺性,通过提供大规模、高质量的语音-文本配对样本,推动多语言ASR模型的开发与优化。其创建不仅丰富了语音数据资源的多样性,更为语言学、人工智能交叉研究提供了关键基础设施,对促进数字包容性与语言技术公平发展具有深远影响。
当前挑战
该数据集致力于解决低资源语言自动语音识别中的核心挑战,即由于训练数据匮乏导致的模型性能瓶颈。具体而言,不同语言间存在显著的声学与语言学差异,如音素分布、语调模式及语法结构,这要求模型具备强大的跨语言泛化能力。在构建过程中,挑战主要体现在数据收集与标注环节:许多非洲语言缺乏标准化的语音语料库,需从零开始进行田野录音,并确保音频质量的一致性与背景噪声的控制;同时,转录工作依赖本土语言专家,其稀缺性与高昂成本制约了数据规模的快速扩展,而拉丁字母转写方案也需兼顾语言特性与模型兼容性。
常用场景
经典使用场景
在语音识别技术领域,多语言语音数据的稀缺性长期制约着模型在低资源语言上的性能提升。asr-25lang-30k-26-04-v2-lnx数据集通过整合25种非洲本土语言的音频与文本对,为自动语音识别模型的训练与评估提供了标准化资源。该数据集最经典的使用场景是作为基准测试平台,用于开发和优化针对非洲语言的端到端语音识别系统,特别是在跨语言迁移学习和少样本学习框架下,研究者能够利用其丰富的语言多样性探索模型泛化能力。
实际应用
在现实世界中,该数据集支撑了多项面向非洲地区的语音技术应用。例如,基于该数据集训练的模型可集成到教育科技平台,为使用斯瓦希里语、祖鲁语等语言的学习者提供语音辅助学习工具;在公共服务领域,能够开发多语言语音助手,提升医疗、金融等场景的信息可及性;同时,它也为本地化内容创作、广播媒体自动化转录等产业应用提供了技术可行性。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦低资源语言语音处理的经典研究工作。例如,有研究利用其进行多任务学习框架下的音素识别优化,提升了模型在语言间的知识迁移效率;另有工作基于该数据探索自监督预训练策略,显著降低了语音识别对标注数据的依赖。这些成果不仅丰富了语音识别的方法论体系,也为后续针对其他区域性语言的资源构建提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成



