afvoices

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/RobotsMali/afvoices

下载链接

链接失效反馈

官方服务：

资源简介：

AfVoices数据集是最大的自然Bambara语语音开放语料库，包含423小时分割后的音频和612小时原始录音，通过结合自动语音识别和人工修正进行注释。

创建时间：

2025-11-21

原始信息汇总

African Next Voices – Bambara (AfVoices) 数据集概述

数据集基本信息

数据集名称: African Next Voices – Bambara (AfVoices)
发布机构: RobotsMali
许可证: CC-BY-4.0
主要语言: 班巴拉语 (Bambara)
任务类别: 自动语音识别

数据规模与配置

配置版本

human-corrected (人工校正)
- 训练集: 253,290个样本，62.77 GB
- 测试集: 6,718个样本，1.52 GB
- 特征: text, duration, audio, label-v1, label-v2
model-annotated (模型标注)
- 训练集: 355,571个样本，55.62 GB
- 特征: duration, audio, label-v1, label-v2
short (短音频)
- 训练集: 259,183个样本，16.35 GB
- 特征: audio, duration, label-v1, label-v2

数据特征

总体统计

原始录音时长: 612小时 (1,777个录音)
分段音频总时长: 423小时 (874,762个片段)
说话人数量: 512人
平均片段时长: 约2秒
年龄分布: 90%说话人年龄在18-45岁之间

地理分布

采集地区: 巴马科、塞古、锡卡索、巴吉内达、布古尼

主题内容

健康、农业、艺术、教育、历史等

数据质量

信噪比分布: 71.75%为高或极高信噪比
音频类型: 自然对话语音，非朗读文本
转录质量: 包含人工校正和自动标注两个版本

标注信息

转录版本

v1: 使用soloni-114m-tdt-ctc-v0模型生成
v2: 使用soloni-114m-tdt-ctc-v2模型生成

声学事件标签

[um]: 发声停顿、填充音
[cs]: 语码转换或外来词
[noise]: 背景噪声
[?]: 听不清或重叠语音
[pause]: 长静音

数据子集详情

Human-corrected子集

时长: 159小时
样本数: 260,000个
特点: 包含经过人工验证的text字段

Model-annotated子集

时长: 212小时
样本数: 355,000个
特点: 仅包含自动标注

Short子集

时长: 52小时
样本数: 259,000个
特点: 短于1秒的片段

引用信息

bibtex @misc{diarra2025dealinghardfactslowresource, title={Dealing with the Hard Facts of Low-Resource African NLP}, author={Yacouba Diarra and Nouhoum Souleymane Coulibaly and Panga Azazia Kamaté and Madani Amadou Tall and Emmanuel Élisé Koné and Aymane Dembélé and Michael Leventhal}, year={2025}, eprint={2511.18557}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.18557}, }

搜集汇总

数据集介绍

构建方式

在非洲语言资源匮乏的背景下，AfVoices数据集通过结构化采集流程构建而成。研究团队采用定制化移动应用，由经过培训的协调员在马里南部地区引导参与者进行自然对话录音，确保语音数据的自发性和真实性。原始音频经过语音活动检测技术分割处理，形成时长240毫秒至30秒的语音片段，最终通过半自动化流程生成转录文本：先由ASR模型生成初始标注，再经人工校对形成高质量版本，同时保留模型自动标注的平行版本以供研究对比。

特点

作为目前规模最大的班巴拉语自发语音语料库，该数据集囊括612小时原始录音与423小时有效片段，覆盖512名不同年龄层的说话者。其核心价值体现在多维度标注体系：除基础语音文本对应关系外，还包含声学事件标记系统，能精准标识填充音、语码转换、环境噪声等语言现象。数据集特别提供三种结构化子集：经过人工校验的159小时高质量数据、212小时模型自动标注数据以及52小时短语音数据，为不同精度需求的语音研究提供梯度化资源支撑。

使用方法

研究者可通过HuggingFace平台直接加载三个预设配置：human-corrected子集适用于高精度语音识别模型训练，其标注文本经过严格人工验证；model-annotated子集包含双重模型标注版本，适合开展标注质量对比研究；short子集则聚焦短语音场景建模。每个样本均提供音频波形、时长信息和分级标注标签，支持端到端的语音处理流程构建。为满足深度研究需求，项目同时开放原始录音的云端存储访问权限，便于开展数据增强与多模态分析。

背景与挑战

背景概述

在低资源语言技术发展背景下，非洲语音数据集AfVoices由RobotsMali团队于2025年末主导构建，作为非洲下一代语音计划的关键组成部分。该数据集聚焦班巴拉语这一西非曼丁戈语系代表性语言，通过半自动化标注流程整合612小时原始录音与423小时有效语音片段，覆盖马里南部五省512名母语者的自然对话语料。其核心研究目标在于突破资源稀缺语言自动语音识别技术的瓶颈，为促进教育平等与数字包容性提供底层数据支撑，已成为当前非洲语言人工智能研究领域规模最大的开放语音库。

当前挑战

该数据集致力于解决低资源语言自动语音识别中数据稀缺与方言变异的核心难题。构建过程中面临多重挑战：自然场景录音需平衡语音质量与真实环境噪声的冲突，导致超70%纯净语音与真实应用场景存在差异；半自动标注流程虽提升效率，却难以完全捕捉代码转换现象，法语借词被统一标记削弱了语言混合特性；地域集中策略虽控制口音变异，但限制了方言覆盖广度，同时语音活动检测技术对短语音段的处理尚存优化空间。

常用场景

经典使用场景

在低资源语言技术研究领域，AfVoices数据集为班巴拉语自动语音识别系统的开发提供了关键支撑。该数据集通过半自动化转录流程结合人工校正，构建了包含423小时分段音频的大规模语料库，其自然对话场景的语音采集方式有效模拟了真实语言环境。研究者可基于人机协同标注的多版本标签，系统评估不同自动转录模型的性能差异，为低资源语言语音技术建立标准化评测基准。

实际应用

在现实应用层面，该数据集支撑的语音技术已惠及马里地区的教育与社会服务领域。基于此训练的语音识别系统可应用于扫盲教育的智能辅导工具，帮助提升母语教学效率；在公共服务场景中，支持班巴拉语的语音交互系统为农村地区居民获取农业资讯、医疗信息提供了技术桥梁，切实推动了数字包容性发展。

衍生相关工作

该数据集催生了系列创新研究，其中最具代表性的是基于soloni系列模型的持续优化工作。研究者通过迭代训练策略，先后开发出v1与v2两个转录模型版本，显著提升了班巴拉语的识别准确率。此外，该数据集的声学事件标注体系启发了跨语言语音现象分析的新方法，为西非语言社区的语料库语言学研宄提供了重要参考。

以上内容由遇见数据集搜集并总结生成