five

WAXAL

收藏
arXiv2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/google/WaxalNLP
下载链接
链接失效反馈
官方服务:
资源简介:
WAXAL是由谷歌研究院联合非洲多所高校及社区组织构建的大规模多语言非洲语音语料库,涵盖24种撒哈拉以南非洲语言。该数据集包含两部分:ASR数据集含1,250小时自然语音转录数据,来自多样化说话者;TTS数据集含235小时高质量单说话者录音,采用音素平衡脚本。数据通过图像提示法和专业录音室采集,经本地语言专家转录与质量控制。该资源旨在突破非洲语言在语音技术中的资源瓶颈,支持自动语音识别、文本转语音系统的开发,促进语言数字保存与技术包容性发展。
提供机构:
谷歌研究院; 加纳大学; Digital Umuganda; 亚的斯亚贝巴大学; 马凯雷雷大学; Loud and Clear Comm. Ltd.; Media Trust Ltd.; 盖茨基金会; AIMS Senegal
创建时间:
2026-02-03
原始信息汇总

Waxal NLP 数据集概述

数据集基本信息

  • 数据集名称: Waxal NLP Datasets
  • 发布机构: Google
  • 许可证: CC-BY-SA-4.0, CC-BY-4.0
  • 相关论文: arXiv:2602.02734
  • 数据集地址: https://huggingface.co/datasets/google/WaxalNLP

语言与多语言性

  • 多语言性: 多语言
  • 涵盖语言: 阿肯语 (ach)、阿坎语 (aka)、阿姆哈拉语 (amh)、班巴拉语 (bam)、巴乌莱语 (bau)、达格巴尼语 (dag)、达加里语 (dga)、埃维语 (ewe)、芳蒂语 (fat)、富拉语 (ful)、豪萨语 (hau)、伊博语 (ibo)、基库尤语 (kik)、波科语 (kpo)、林加拉语 (lin)、卢干达语 (lug)、卢奥语 (luo)、马赛语 (mas)、马达加斯加语 (mlg)、尼昂科勒语 (nyn)、奥罗莫语 (orm)、尼日利亚皮钦语 (pcm)、锡达莫语 (sid)、绍纳语 (sna)、索加语 (sog)、斯瓦希里语 (swa)、提格里尼亚语 (tir)、契维语 (twi)、瓦拉莫语 (wal)、沃洛夫语 (wol)、约鲁巴语 (yor)

任务类别与标签

  • 任务类别: 自动语音识别、文本到语音
  • 标签: 音频、自动语音识别、文本到语音

数据来源与标注

  • 源数据集: UGSpeechData、DigitalUmuganda/AfriVoice、原始数据
  • 标注创建者: 人工标注、众包

数据集配置与结构

数据集包含多个配置,每个配置对应特定语言和任务(自动语音识别或文本到语音)。配置名称格式为 {语言代码}_{任务}

自动语音识别配置示例

  • 配置名称: 如 ach_asraka_asr 等。
  • 数据文件: 通常包含训练集、验证集、测试集和未标注集。
  • 特征:
    • id: 字符串类型,样本标识符。
    • speaker_id: 字符串类型,说话者标识符。
    • transcription: 字符串类型,转录文本。
    • language: 字符串类型,语言。
    • gender: 字符串类型,性别。
    • audio: 音频类型,音频数据。

文本到语音配置示例

  • 配置名称: 如 ach_ttsbam_tts 等。
  • 数据文件: 通常包含训练集、验证集和测试集。
  • 特征:
    • id: 字符串类型,样本标识符。
    • speaker_id: 字符串类型,说话者标识符。
    • text: 字符串类型,文本。
    • locale: 字符串类型,区域设置。
    • gender: 字符串类型,性别。
    • audio: 音频类型,音频数据。

部分配置数据规模详情

以下为部分提供了详细数据规模的配置示例:

dag_asr (达格巴尼语 ASR)

  • 下载大小: 120539178900 字节
  • 数据集大小: 60263310459 字节
  • 数据分割:
    • 训练集: 14231 个样本,4448934448 字节
    • 验证集: 1750 个样本,548187414 字节
    • 测试集: 1838 个样本,571431733 字节
    • 未标注集: 168084 个样本,54694756864 字节

dga_asr (达加里语 ASR)

  • 下载大小: 72867734612 字节
  • 数据集大小: 60789746248 字节
  • 数据分割:
    • 训练集: 15071 个样本,4820557427 字节
    • 验证集: 1893 个样本,609351682 字节
    • 测试集: 1910 个样本,606632082 字节
    • 未标注集: 172520 个样本,54753205057 字节

ewe_asr (埃维语 ASR)

  • 下载大小: 69971276395 字节
  • 数据集大小: 69963555331 字节
  • 数据分割:
    • 训练集: 16269 个样本,10819002810 字节
    • 验证集: 2068 个样本,1365304724 字节
    • 测试集: 2043 个样本,1645725414 字节
    • 未标注集: 183920 个样本,56133522383 字节

ful_tts (富拉语 TTS)

  • 下载大小: 15242310057 字节
  • 数据集大小: 12714221571 字节
  • 数据分割:
    • 训练集: 22060 个样本,10184585592 字节
    • 验证集: 2724 个样本,1320070314 字节
    • 测试集: 2758 个样本,1209565665 字节

kpo_asr (波科语 ASR)

  • 下载大小: 60088447564 字节
  • 数据集大小: 60081900738 字节
  • 数据分割:
    • 训练集: 14415 个样本,4743679629 字节
    • 验证集: 1760 个样本,579317899 字节
    • 测试集: 1845 个样本,607448605 字节
    • 未标注集: 173486 个样本,54151454605 字节

pcm_tts (尼日利亚皮钦语 TTS)

  • 下载大小: 769030040 字节
  • 数据集大小: 769183424 字节
  • 数据分割:
    • 训练集: 1590 个样本,584279631 字节
    • 验证集: 199 个样本,105777224 字节
    • 测试集: 204 个样本,79126569 字节

wol_tts (沃洛夫语 TTS)

  • 下载大小: 8308508364 字节
  • 数据集大小: 8308302202 字节
  • 数据分割:
    • 训练集: 1099 个样本,6680396387 字节
    • 验证集: 137 个样本,748896197 字节
    • 测试集: 138 个样本,879009618 字节
搜集汇总
数据集介绍
构建方式
在语音技术长期偏向高资源语言的背景下,WAXAL数据集的构建旨在填补撒哈拉以南非洲语言资源的空白。该数据集通过一项历时多年的协作项目完成,联合了非洲四所学术与社区组织,确保了本地化专业知识与社区参与。自动语音识别(ASR)部分采用图像提示法,邀请参与者在自然环境中描述多样化图像,以采集自发、自然的语音,随后由本地语言专家对其中10%的音频进行转录,并经过严格的质量控制以去除个人可识别信息。文本转语音(TTS)部分则基于语音平衡脚本,在专业录音环境下由社区成员进行高质量单说话人录制,旨在为合成语音系统提供纯净的语音素材。
特点
WAXAL数据集显著特点在于其规模与多样性,涵盖24种撒哈拉以南非洲语言,代表超过一亿使用者。ASR部分包含约1250小时经过转录的自然语音,覆盖广泛说话人 demographics,包括年龄与性别的平衡分布,且语音内容因图像提示而呈现丰富的主题变化。TTS部分则提供超过235小时的高保真单说话人录音,专为构建高质量语音合成系统设计。数据集附有详细的元数据,如说话人 demographics 与录音环境,并以宽松的CC-BY-4.0许可公开发布,旨在促进学术与商业研究的广泛应用。
使用方法
该数据集为语音技术研究提供了关键资源,尤其适用于低资源非洲语言的模型开发与评估。ASR部分可用于训练和测试自动语音识别系统,其自然语音与多样化环境条件有助于提升模型的鲁棒性与泛化能力。TTS部分则支持高保真语音合成模型的构建,适用于教育、辅助技术等应用场景。研究人员可通过Hugging Face平台公开访问数据集,利用其丰富元数据进行细粒度分析,或结合其他多语言语料库开展对比研究,以推动包容性语音技术的发展与非洲语言的数字保存。
背景与挑战
背景概述
语音技术的进步长期以来主要惠及高资源语言,导致撒哈拉以南非洲地区众多语言使用者面临显著的数字化鸿沟。为应对这一挑战,Google Research联合加纳大学、Digital Umuganda等非洲学术与社区机构,于2021年至2024年间共同构建了WAXAL大规模多语言非洲语言语音语料库。该数据集涵盖24种代表性非洲语言,旨在为自动语音识别与文本到语音合成系统提供高质量、开放许可的基础资源,以推动包容性技术发展并促进这些语言的数字保存。
当前挑战
WAXAL数据集致力于解决撒哈拉以南非洲语言在语音技术领域长期面临的数据稀缺问题,其核心挑战在于克服该地区语言的独特复杂性,如声调区分、复杂形态结构及频繁的语码转换现象,这些特征对主流建模范式构成显著考验。在构建过程中,团队需应对多语言数据采集的协调难题,包括在自然环境下通过图像提示收集自发语音、确保说话人 demographic 多样性,并依赖本地语言专家进行精准转录与质量控制,同时还需处理仅10%音频具备转录覆盖的局限性,以及平衡方言代表性不足等伦理与实操层面的挑战。
常用场景
经典使用场景
在语音技术研究领域,WAXAL数据集最经典的使用场景是作为训练和评估自动语音识别(ASR)与文本转语音(TTS)系统的基准资源。该数据集通过图像提示的方式收集了约1250小时的自然语音,覆盖了24种撒哈拉以南非洲语言,能够有效模拟真实对话环境中的语音变化和多样性。研究者利用其大规模、高质量且经过本地专家转录的语料,可以构建跨语言的语音模型,探索低资源语言下的声学建模、语言模型适应以及多语言迁移学习等核心问题。
解决学术问题
WAXAL数据集主要解决了低资源非洲语言在语音技术研究中面临的数据稀缺问题。它提供了首个大规模、公开可用的多语言语音语料库,使得研究者能够系统性地研究这些语言的独特语言学特征,如声调变化、复杂形态和语码转换现象。该资源为开发鲁棒的ASR和TTS模型奠定了数据基础,推动了语音技术公平性和包容性的学术讨论,并促进了数字时代下非洲语言的保存与传承。
衍生相关工作
WAXAL数据集的发布催生了一系列围绕低资源语言语音技术的经典研究工作。许多后续研究以其为基础,探索了多语言预训练、跨语言迁移以及端到端语音识别模型的优化。例如,研究者利用WAXAL的转录语音数据改进了针对非洲语言的声学模型,并在语音合成领域开发了更自然、更具文化适应性的TTS系统。这些工作不仅扩展了语音技术的语言覆盖范围,也为全球人工智能伦理和资源公平分配的研究提供了重要案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作