Kunkado
收藏arXiv2025-12-22 更新2025-12-24 收录
下载链接:
https://huggingface.co/RobotsMali/kunkado
下载链接
链接失效反馈官方服务:
资源简介:
Kunkado是由马里RobotsMali AI4D实验室创建的班巴拉语自动语音识别数据集,包含来自4个马里广播电台的160小时语音数据,共计118,925条语音片段。该数据集涵盖了广泛的自然对话场景,包括语码转换、不流畅表达、背景噪音和说话人重叠等真实世界中的语音现象。数据采集自专业广播录音设备,经过能量阈值分割和人工转录校正,其中25%的内容经过人工审核。该数据集特别关注班巴拉语这种以口语为主的低资源语言,旨在提升自动语音识别系统在真实场景中的鲁棒性,解决传统ASR系统在自然对话中表现不佳的问题。
提供机构:
马里RobotsMali AI4D实验室
创建时间:
2025-12-22
原始信息汇总
Kunnafonidilaw ka cadeau (Kunkado) 数据集概述
数据集基本信息
- 数据集名称:Kunnafonidilaw ka cadeau (Kunkado)
- 任务类别:自动语音识别、翻译
- 主要语言:班巴拉语、法语
- 标签:半标注、ASR、语音识别、语码转换、班巴拉语
- 许可证:CC-BY-SA 4.0
- 数据规模分类:100K < n < 1M
数据集构成与统计
数据集包含三个配置。
配置一:human-reviewed (默认)
- 特征:音频、时长、半标注、校正后标注
- 数据分割:
- 训练集:33,282 条样本,大小约 9.84 GB
- 测试集:5,775 条样本,大小约 1.75 GB
- 总下载大小:约 11.50 GB
- 总数据集大小:约 11.59 GB
配置二:semi-first
- 特征:音频、时长、半标注
- 数据分割:
- 训练集:41,366 条样本,大小约 12.22 GB
- 总下载大小:约 12.15 GB
- 总数据集大小:约 12.22 GB
配置三:semi-second
- 特征:音频、时长、半标注
- 数据分割:
- 训练集:38,502 条样本,大小约 11.59 GB
- 总下载大小:约 23.76 GB
- 总数据集大小:约 11.59 GB
整体数据统计
- 总时长:161.15 小时
- 已审核子集时长:39.3 小时 (约 25%)
- 总片段数:118,925
- 涉及语言:班巴拉语 (主要)、法语 (语码转换)、其他阿拉伯语 (音译)
数据集特点
- 当代巴马科班巴拉语:反映马里人自然说班巴拉语的方式,包括城市语音模式、缩略语和非正式表达。
- 主题广泛:涵盖日常对话、新闻、政治、宗教、喜剧、市场讨论和社会评论。
- 数字转录为数字:旨在加速人工转录并统一半标注的格式。
- 大量语码转换:法语和阿拉伯语插入用
__标记。 - 多数片段包含多人语音和交互:反映真实对话和群组场景中的语音重叠。
时长分布 (秒)
| 时长区间 (秒) | human-reviewed | semi-first | semi-second | 总计 |
|---|---|---|---|---|
| 0.6 – 15 | 39,057 | 41,366 | 38,502 | 111,746 |
| 15 – 30 | 0 | 0 | 5,402 | 5,402 |
| 30 – 45 | 0 | 0 | 1,777 | 1,777 |
子集详情
human-reviewed
- 总计:39.27 小时,39,057 条短语音
- 训练集:33,282 条,33.47 小时
- 测试集:5,775 条,5.80 小时 (约 15%)
semi-first
- 总计:41.47 小时,41,366 条短语音
semi-second
- 总计:80.42 小时,38,502 条变长语音 (0.6 至 45 秒)
标注标签
| 标签 | 含义 |
|---|---|
<BRUITS> |
通用噪音 |
<INCOMPRÉHENSIBLE> |
完全听不清的语音 |
<CHEVAUCHEMENT> |
说话人重叠 |
<RIRES> |
笑声 |
<MUSIQUE> |
音乐/音效 (无歌词) |
<TOUX> |
咳嗽 |
<INVOCATION> |
祈祷、古兰经摘录 |
<ECHO> |
回声伪影 |
<APPLAUDISSEMENTS> |
掌声 |
<CRIS> |
尖叫 |
<PLEURES> |
哭泣 |
数据来源
| 提供方 | 时长 (小时) | 媒体类型 |
|---|---|---|
| Radio Benkouma “La voix du Baramousso” | 32.7 | 社区电台 |
| Mousso TV | 23.2 | 电视 |
| ORTM (国家电视台) | 7 | 电视/电台 |
| Radio Sahel FM | 98.4 | 地区电台 |
已知问题与注意事项
- 分割问题:基于静音代理分割,部分语音在词语中间被切断。
- 拼写问题:外语短语和阿拉伯语音译可能存在拼写错误。
- 语码转换不一致:阿拉伯语短语有时被标记,有时未标记。
- 数字格式:数字与字母的写法未严格统一。
- 存在少量纯法语片段。
使用示例
python from datasets import load_dataset ds = load_dataset("RobotsMali/kunkado", split="train") print(ds[0]["corrected-label"])
引用格式
bibtex @misc{diarra_kunkado_2025, title = {kunnafonidilaw ka cadeau: an {ASR} dataset to power the development of models that understands present-Day Bambara}, author = {RobotsMali AI4D Lab}, year = 2025, howpublished = {Hugging Face Datasets}, note = {url{https://huggingface.co/datasets/RobotsMali/kunkado}} }
搜集汇总
数据集介绍

构建方式
在低资源语言自动语音识别领域,构建具有真实口语特征的数据集面临诸多挑战。Kunkado数据集通过系统性地采集马里四家广播电台的约300小时广播录音,构建了一个160小时的班巴拉语语音识别资源。音频处理采用基于能量阈值的静音分割方法,利用pydub库的split_on_silence函数,以-35 dBFS的阈值和600毫秒的最小静音长度进行分段,保留了原始录音的全部内容。转录过程采用半自动化策略,首先使用预训练ASR模型生成初始转录,再由七名标注员对39.3小时的语料进行人工校正,重点关注代码转换、数字格式和声学事件的标注一致性。
特点
该数据集的核心价值在于其真实捕捉了当代班巴拉语口语的自然特征。语料源自日常广播节目,完整保留了代码转换、言语不流利、背景噪声和说话人重叠等真实场景中的语音现象。特别值得注意的是,数据集中法语和阿拉伯语的代码转换现象被系统标注,反映了西非地区语言接触的现实状况。声学特征方面,69.2%的语段信噪比高于15dB,证明广播录音质量能够满足语音识别需求。转录文本采用实用主义规范,数字以阿拉伯数字形式呈现,并设计了13类标注标签来捕捉各类声学和语言事件,在标注一致性与语言真实性之间取得了平衡。
使用方法
研究团队通过系统实验展示了该数据集的有效应用路径。在模型训练阶段,采用33.47小时的人工校正子集对基于Parakeet架构的soloni系列模型进行微调。数据处理时实施了转录规范化策略,移除变音符号和标点,简化代码转换标记,仅保留关键声学事件标签,以降低标注变异性的影响。评估环节采用双重测试机制:既使用Kunkado内部测试集,也采用独立的Nyana-Eval人类评估数据集。实验结果表明,经过微调的soloni-v3模型在两项测试中均显著降低词错误率,分别从44.47%降至37.12%和从36.07%降至32.33%,证实了真实口语数据对提升模型实用性的关键作用。
背景与挑战
背景概述
Kunkado数据集由RobotsMali AI4D实验室于2025年发布,旨在为低资源班巴拉语提供自动语音识别(ASR)支持。该数据集包含160小时的语音数据,源自马里广播电台的档案,捕捉了当代自然口语中的多种语言现象,如语码转换、不流利表达、背景噪声和说话人重叠。其核心研究问题聚焦于如何利用真实世界语音数据提升ASR系统在现实场景中的鲁棒性,尤其针对以口语为主的语言。Kunkado的推出填补了班巴拉语自然语音数据的空白,为低资源语言处理领域提供了重要的数据资源,推动了相关模型在真实应用中的性能提升。
当前挑战
Kunkado数据集面临的挑战主要体现在两个方面:在领域问题层面,它致力于解决低资源口语语言ASR中真实语音建模的难题,包括处理高频语码转换、背景噪声干扰以及自发语音的不规则性,这些因素导致模型训练复杂度显著增加。在构建过程中,挑战主要源于广播音频的转录困难,如音频分割粗糙导致的语音截断、噪声环境下语音清晰度降低,以及语码转换和数字格式的标注一致性维护。此外,有限的标注资源和成本约束使得仅能对部分数据(约40小时)进行人工校对,影响了数据集的规模扩展和质量控制。
常用场景
经典使用场景
在低资源语言自动语音识别研究中,Kunkado数据集以其源自马里广播档案的真实语音材料,成为训练和评估鲁棒性ASR系统的经典资源。该数据集涵盖了广泛的日常话题,包含语码转换、不流利表达、背景噪声和说话人重叠等自然语音现象,为模型提供了逼近现实场景的训练环境。研究者通过在该数据集上微调预训练模型,显著提升了Bambara语言ASR系统在嘈杂和自发语音环境下的识别准确率,验证了数据代表性对模型泛化能力的关键影响。
衍生相关工作
Kunkado数据集的发布催生了一系列围绕低资源语言语音技术的衍生研究。在模型架构方面,基于Parakeet框架的Soloni系列模型通过在该数据集上的迭代微调,形成了针对Bambara的优化版本;在数据标注方法论上,其提出的语用转录规范化策略为处理语码转换和数字格式提供了参考标准。同时,该数据集与African Next Voices项目形成互补,共同构建了Bambara语音数据的多层次生态,激励了后续关于口语语言语料构建成本分析、混合语言评估指标设计以及广播档案自动化挖掘等方向的研究工作。
数据集最近研究
最新研究方向
在低资源语言自动语音识别领域,Kunkado数据集的推出标志着研究重心从传统洁净语音转向真实世界复杂场景的建模。该数据集基于马里广播档案构建,涵盖了代码转换、不流畅表达、背景噪声及说话人重叠等自然语音现象,为Bambara等以口语为主的语言提供了前所未有的现实语音资源。前沿研究聚焦于利用此类数据提升模型在真实环境中的鲁棒性,通过微调策略显著降低词错误率,并探索代码转换与语音事件标注对跨语言语音识别性能的深层影响。这一方向不仅推动了语音技术在非洲语言中的实用化部署,也为全球低资源语言处理提供了以广播档案为数据源的可持续研究范式。
相关研究论文
- 1Kunnafonidilaw ka Cadeau: an ASR dataset of present-day Bambara马里RobotsMali AI4D实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



