five

Kunkado_Maya_V2

收藏
Hugging Face2026-01-20 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/binaryMao/Kunkado_Maya_V2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是原始数据集'RobotsMali/Kunkado'('human-reviewed'配置)的转换版本。此版本的目的是提供与Maya One集成标准完全兼容的转录文本,其中情感和噪音标签100%符合标准。转换过程包括:1) 标签标准化:将Kunkado格式转换为Maya格式;2) 情感映射:如将'COLERE'/'PEUR'映射为'<cri>';3) 噪音清理:删除不理解的标签;4) 规范化:删除多余空格并将标签转为小写。数据集包含原始列和新目标列'text_maya',即最终的Maya One就绪转录文本。
创建时间:
2026-01-11
原始信息汇总

Kunkado Maya V2 (Standardized) 数据集概述

数据集基本信息

  • 名称:Kunkado Maya V2 (Standardized)
  • 语言:班巴拉语 (Bambara, 代码: bm)
  • 许可证:Apache-2.0
  • 任务类别:自动语音识别、文本转语音
  • 标签:RobotsMali, MayaOne, Bambara

数据集描述

本数据集是原始数据集 RobotsMali/Kunkado(配置为 human-reviewed)的一个转换版本。其核心目标是提供转录文本,确保其中的情感和噪音标签与 Maya One 的集成标准实现 100% 兼容。

数据转换处理

一个自动清理流程被应用于原始数据集的 corrected-label 列,以生成新的 text_maya 列。具体转换包括:

  1. 标签标准化:将Kunkado格式的 [TAG]<TAG> 转换为Maya格式的 <tag>
  2. 情感标签映射
    • COLERE / PEUR 映射为 <cri>
    • JOIE / RIRE 映射为 <laugh> (或 <rire>)
    • APPEL 映射为 <invocation>
    • INCANTATION 映射为 <incantation>
    • SILENCE 映射为 <silence>
  3. 噪音清理:完全移除 incompréhensible 类型的标签。
  4. 文本规范化:删除多余空格并将所有标签转换为小写。

数据结构

数据集文件保留了原始列以供参考,并新增了目标列:

  • text_maya:为Maya One准备的最终转录文本。

使用方法

python from datasets import load_dataset dataset = load_dataset("binaryMao/Kunkado_Maya_V2")

搜集汇总
数据集介绍
main_image_url
构建方式
在语音技术领域,高质量、标准化的标注数据对于模型训练至关重要。Kunkado_Maya_V2数据集的构建源于对原始RobotsMali/Kunkado数据集中人工审核配置的深度改造,其核心目标在于实现情感与噪声标签与Maya One集成标准的完全兼容。通过实施一套自动化的清洗流程,该数据集对原始corrected-label列进行了系统处理,生成了全新的text_maya列。这一流程涵盖了标签格式的标准化,将原有的`[TAG]`或`<TAG>`格式统一转换为Maya规范的`<tag>`格式;同时执行了情感标签的映射,例如将COLERE和PEUR映射为`<cri>`,将JOIE和RIRE映射为`<laugh>`或`<rire>`;并彻底清除了所有表示不可理解的噪声标签,最后通过删除多余空格和标签小写化完成了文本的规范化。
特点
该数据集的核心特点体现在其高度的标准化与实用性上。作为专为Maya One系统设计的语音数据集,它确保了所有情感与噪声标签格式的严格统一,这为语音识别与文本转语音任务的模型训练与评估提供了稳定可靠的数据基础。数据集完整保留了原始数据列以供参考,同时新增了经过全面清洗与转换的text_maya列,该列转录文本可直接应用于下游任务,显著提升了数据与目标系统集成的便捷性。其标注体系针对班巴拉语(Bambara)的语音特点进行了适配,特别是对情感表达和特定噪声的标签进行了精心设计,使得数据集在相关语言技术研究中具有独特的价值。
使用方法
在学术研究与工程实践中,该数据集的使用极为便捷。研究人员或开发者可通过Hugging Face的datasets库直接加载数据集,只需简单的Python代码即可访问其中的标准化转录文本。加载后,数据集中包含的text_maya列即可作为模型输入或评估基准,用于训练或测试自动语音识别及文本转语音模型。由于标签已完全符合Maya One标准,该数据尤其适合用于构建或优化与该系统兼容的语音处理流水线。用户亦可参照保留的原始数据列,对比分析标准化前后的差异,以深入理解数据清洗与转换的具体效果。
背景与挑战
背景概述
在低资源语言自动语音处理领域,数据稀缺性长期制约着技术发展。Kunkado_Maya_V2数据集由RobotsMali团队基于原始Kunkado语料库构建,旨在为班巴拉语(Bambara)的语音识别与合成任务提供标准化标注资源。该数据集通过系统化转换流程,将人类审核的语音转录文本适配至Maya One集成标准,核心在于解决非通用语言在情感标签与噪声标记上的格式统一问题,为西非语言社区的语音技术应用奠定了数据基础。
当前挑战
该数据集致力于应对班巴拉语语音转录中非语言元素标注的规范化挑战,具体涉及情感表达与背景噪声的标签体系兼容性。在构建过程中,团队需克服原始标注格式异构性,例如将多种情绪标签映射为统一符号,并消除不兼容的噪声标记。同时,自动化清洗流程需在保留语言特征的前提下,实现多标签格式转换与文本归一化,确保输出符合目标平台的严格集成规范。
常用场景
经典使用场景
在非洲语言技术领域,班巴拉语作为西非广泛使用的语言,其语音数据处理面临资源稀缺的挑战。Kunkado_Maya_V2数据集通过提供标准化的语音转录文本,为自动语音识别和文本转语音系统的训练与评估奠定了坚实基础。该数据集特别适用于构建针对班巴拉语的端到端语音模型,研究人员利用其标注信息优化声学建模和语言模型适配,以提升低资源语言环境下语音技术的性能表现。
解决学术问题
该数据集有效解决了低资源语言语音处理中的标注标准化问题,通过统一情感和噪声标签格式,消除了不同标注体系间的兼容性障碍。在学术研究中,它支持跨语言语音模型迁移学习、噪声鲁棒性分析以及多模态情感计算等前沿课题,为班巴拉语语音技术提供了可复现的实验基准。其标准化流程对资源稀缺语言的语料库建设具有方法论意义,推动了语言技术公平性与包容性发展。
衍生相关工作
围绕该数据集衍生的经典工作包括基于迁移学习的班巴拉语语音识别框架、融合情感标签的多说话人合成系统,以及面向噪声环境的鲁棒性语音处理算法。部分研究进一步拓展了其标签体系,开发出跨语言情感语音数据库构建范式。这些工作不仅深化了对非洲语言计算特性的理解,也为联合国可持续发展目标中的语言多样性保护提供了技术路径参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作