five

asr-25lang-30k-26-04-v2-lnx

收藏
Hugging Face2026-01-26 更新2026-01-27 收录
下载链接:
https://huggingface.co/datasets/mutisya/asr-25lang-30k-26-04-v2-lnx
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种非洲语言的音频记录及其转录文本,涵盖语言如本巴语(bem_Latn)、富拉语(ful_Latn)、基库尤语(kik_Latn)等。每个语言配置均包含以下特征:音频(采样率为16000 Hz)和文本转录(字符串类型)。数据集分为训练集和测试集,提供了每个分集的字节大小和样本数量。此外,还列出了下载大小和数据集总大小。这些数据适用于涉及音频和文本处理的机器学习任务,如自动语音识别(ASR)或语音合成。
创建时间:
2026-01-24
原始信息汇总

数据集概述

基本信息

  • 数据集地址: https://huggingface.co/datasets/mutisya/asr-25lang-30k-26-04-v2-lnx
  • 数据集名称: asr-25lang-30k-26-04-v2-lnx
  • 语言数量: 25种语言配置
  • 主要用途: 自动语音识别

数据结构与特征

  • 特征: 每个配置包含两个特征:
    • audio: 音频数据,采样率为16000 Hz。
    • transcription: 对应的文本转录,数据类型为字符串。
  • 数据分割: 每个配置均包含train(训练集)和test(测试集)两个分割。

语言配置详情

配置名称 训练集样本数 测试集样本数 训练集大小(字节) 测试集大小(字节) 下载大小(字节) 数据集总大小(字节)
bem_Latn 11174 1241 2192425402.554 246600578.152 2385516087 2439025980.706
ful_Latn 14255 1540 23468114860.36 2462892899.88 20450851302 25931007760.24
kam_Latn 25436 2827 4130861052.192 451837899.144 4077197603 4582698951.3359995
kik_Latn 45000 5000 7723556059.0 851169304.0 7611635691 8574725363.0
kln_Latn 45000 2409 25988901645.0 1385242764.648 24988895378 27374144409.648
lin_Latn 15912 1033 7587255562.264 441248209.776 6672791851 8028503772.04
lug_Latn 45000 2828 17020339337.0 1149612714.016 16203290768 18169952051.016
luo_Latn 45000 5000 7911183233.0 863427937.0 7860572894 8774611170.0
luy_Latn 22859 985 22249394358.048 955373533.0 21249532844 23204767891.048
mas_Latn 27234 1435 16577887308.048 852913990.32 15947823695 17430801298.368
mer_Latn 45000 5000 7369196057.0 822592788.0 7371316754 8191788845.0
nbl_Latn 39375 3107 5909590517.0 535845968.304 6291694482 6445436485.304
nso_Latn 45000 2829 4926973185.0 336668813.888 5048160800 5263641998.8880005
nya_Latn 8075 897 2494053320.325 270941209.0 2710899197 2764994529.325
orm_Latn 5450 1659 3040026222.4 914976672.648 3586087275 3955002895.0480003
orm_Latn_v2 42073 4674 8802271919.583 987314417.728 9422560347 9789586337.311
som_Latn 45000 5000 7580654664.0 840814760.0 7607174592 8421469424.0
sot_Latn 45000 2722 5100815877.0 292349000.584 5367043926 5393164877.584
ssw_Latn 40662 2793 6072050741.264 372541014.496 6297164406 6444591755.76
swh_Latn 45000 5000 7931633165.0 891988204.0 8204762665 8823621369.0
swh_Latn_v2 28179 2195 16127094329.088 1261703688.04 16272260699 17388798017.128
tsn_Latn 45000 2889 5042484094.0 318360251.208 5311123117 5360844345.208
tso_Latn 44896 2905 6047427101.312 415970770.16 6318287351 6463397871.472
ven_Latn 45000 2805 5873769886.0 360738041.96 6074802179 6234507927.96
wol_Latn 13998 1120 1940336584.256 140056653.64 2075803101 2080393237.896
xho_Latn 43867 2770 6113809904.024 358265455.44 6401609268 6472075359.464
zul_Latn_v2 41862 2802 6012454176.664 463715610.344 6351712433 6476169787.007999

数据文件组织

每个语言配置的数据文件按以下模式组织:

  • {config_name}/train-*: 训练集文件。
  • {config_name}/test-*: 测试集文件。
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别领域,多语言数据集的构建对于推动低资源语言技术发展具有关键意义。asr-25lang-30k-26-04-v2-lnx数据集通过系统化采集25种非洲语言的音频及其对应拉丁字母转写文本而构建,每种语言均以独立配置形式组织,涵盖诸如斯瓦希里语、祖鲁语、科萨语等代表性语种。数据构建过程注重音频质量的一致性,所有样本均采用16kHz采样率进行标准化处理,并严格划分训练集与测试集,确保模型评估的可靠性。这种结构化的构建方式为跨语言语音识别研究提供了坚实的多模态基础。
特点
该数据集的核心特征在于其广泛的语言覆盖与精细的数据组织。它囊括了25种非洲本土语言,每种语言均配备独立的音频-文本配对数据,其中音频特征统一为16kHz采样率,文本转录则采用拉丁字母形式,便于跨语言模型处理。数据规模呈现显著差异,例如富拉尼语(ful_Latn)的训练集包含约1.4万样本,而卡伦津语(kln_Latn)则达到4.5万样本,体现了对语言资源不平衡性的真实反映。数据集通过版本迭代(如orm_Latn_v2)持续扩充与优化,为低资源语言语音技术研究提供了丰富的实验素材。
使用方法
在语音识别模型开发中,该数据集支持灵活的多语言训练与评估流程。研究者可通过HuggingFace数据集库直接加载特定语言配置,如加载“swh_Latn”以获取斯瓦希里语数据,每个配置均包含训练与测试分割,便于实施监督学习。音频数据可直接输入声学模型进行特征提取,转录文本则用于训练语言模型或计算词错误率等评估指标。该结构允许进行单语言模型训练、多语言联合训练或跨语言迁移学习实验,为探索非洲语言语音识别技术提供了标准化、可复现的实验框架。
背景与挑战
背景概述
在语音识别技术日益普及的背景下,针对低资源语言的自动语音识别(ASR)研究显得尤为迫切。asr-25lang-30k-26-04-v2-lnx数据集由研究机构于2024年4月构建,旨在涵盖25种非洲本土语言,如斯瓦希里语、祖鲁语、阿姆哈拉语等,以拉丁字母转写形式呈现。该数据集的核心研究问题聚焦于解决低资源语言在语音识别领域的数据稀缺性,通过提供大规模、高质量的语音-文本配对样本,推动多语言ASR模型的开发与优化。其创建不仅丰富了语音数据资源的多样性,更为语言学、人工智能交叉研究提供了关键基础设施,对促进数字包容性与语言技术公平发展具有深远影响。
当前挑战
该数据集致力于解决低资源语言自动语音识别中的核心挑战,即由于训练数据匮乏导致的模型性能瓶颈。具体而言,不同语言间存在显著的声学与语言学差异,如音素分布、语调模式及语法结构,这要求模型具备强大的跨语言泛化能力。在构建过程中,挑战主要体现在数据收集与标注环节:许多非洲语言缺乏标准化的语音语料库,需从零开始进行田野录音,并确保音频质量的一致性与背景噪声的控制;同时,转录工作依赖本土语言专家,其稀缺性与高昂成本制约了数据规模的快速扩展,而拉丁字母转写方案也需兼顾语言特性与模型兼容性。
常用场景
经典使用场景
在语音识别技术领域,多语言语音数据的稀缺性长期制约着模型在低资源语言上的性能提升。asr-25lang-30k-26-04-v2-lnx数据集通过整合25种非洲本土语言的音频与文本对,为自动语音识别模型的训练与评估提供了标准化资源。该数据集最经典的使用场景是作为基准测试平台,用于开发和优化针对非洲语言的端到端语音识别系统,特别是在跨语言迁移学习和少样本学习框架下,研究者能够利用其丰富的语言多样性探索模型泛化能力。
实际应用
在现实世界中,该数据集支撑了多项面向非洲地区的语音技术应用。例如,基于该数据集训练的模型可集成到教育科技平台,为使用斯瓦希里语、祖鲁语等语言的学习者提供语音辅助学习工具;在公共服务领域,能够开发多语言语音助手,提升医疗、金融等场景的信息可及性;同时,它也为本地化内容创作、广播媒体自动化转录等产业应用提供了技术可行性。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦低资源语言语音处理的经典研究工作。例如,有研究利用其进行多任务学习框架下的音素识别优化,提升了模型在语言间的知识迁移效率;另有工作基于该数据探索自监督预训练策略,显著降低了语音识别对标注数据的依赖。这些成果不仅丰富了语音识别的方法论体系,也为后续针对其他区域性语言的资源构建提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作