Vuk’uzenzele isiXhosa Speech Dataset (ViXSD)

Name: Vuk’uzenzele isiXhosa Speech Dataset (ViXSD)
Creator: Lelapa AI, RAIL Lab – University of the Witwatersrand, DSFSI – University of Pretoria, MBZUAI, Aarya Legal, Masakhane
Published: 2025-02-22 04:12:50
License: 暂无描述

arXiv2025-02-22 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.15916v1

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

Vuk’uzenzele isiXhosa Speech Dataset (ViXSD) 是一个开源语料库，由Lelapa AI等机构开发，并在Esethu框架和许可下发布。该数据集包含来自本土isiXhosa语者的朗读语音，并丰富了人口统计和语言元数据。它旨在通过社区驱动的许可和编目原则，弥合自动语音识别（ASR）在非洲语言中的资源差距，同时保护数据创建者的利益。

Vuk’uzenzele isiXhosa Speech Dataset (ViXSD) is an open-source corpus developed by institutions including Lelapa AI, and released under the Esethu framework and license. This dataset contains read speech from native isiXhosa speakers, and is enriched with demographic and linguistic metadata. It aims to bridge the resource gap for automatic speech recognition (ASR) in African languages through community-driven licensing and curation principles, while protecting the interests of data creators.

提供机构：

Lelapa AI, RAIL Lab – University of the Witwatersrand, DSFSI – University of Pretoria, MBZUAI, Aarya Legal, Masakhane

创建时间：

2025-02-22

搜集汇总

数据集介绍

构建方式

ViXSD数据集的构建是在Esethu框架下进行的，该框架旨在通过社区驱动的数据许可和可持续的数据管理，确保低资源语言的自动语音识别(ASR)系统的发展。数据集收集了来自本土isiXhosa语者的朗读语音，并富含人口统计和语言元数据。数据预处理包括将原始文本分割成短段落，以便参与者舒适地阅读和录音，同时纠正了自动提取过程中引入的格式不一致。参与者是经过筛选的本土isiXhosa语者，他们的录音经过严格的质量控制，以确保数据的一致性和高质量。

特点

ViXSD数据集的主要特点是它的社区驱动性、可持续性和多样性。社区驱动性体现在数据集的创建和管理过程中，社区成员直接参与并受益于数据资源。可持续性通过Esethu许可实现，该许可要求将许可收入重新投资于数据集的扩展，从而形成一个自我维持的生态系统。多样性体现在数据集中包含了不同性别、口音和背景的说话者，以及他们的人口统计和语言元数据。此外，数据集还包含了丰富的语音数据，包括10小时的朗读语音和大约39,000个单词。

使用方法

使用ViXSD数据集的方法包括数据预处理、模型训练和评估。数据预处理包括将音频文件转换为单声道并重新采样到16kHz，以及将转录文本标准化。模型训练可以使用如Massively Multilingual Speech (MMS)等开源模型进行，并通过零样本测试和适配器微调来评估其性能。评估指标包括词错误率(WER)和字符错误率(CER)。ViXSD数据集的有效性已在实验中得到验证，通过微调模型，与零样本基线相比，WER降低了约3.4%，表明了其在构建和改进isiXhosa语音驱动应用程序方面的可用性。

背景与挑战

背景概述

在自动语音识别（ASR）系统的进步中，高质量语音数据的可用性起到了关键作用。然而，许多低资源语言的语音数据仍然匮乏，导致这些语言的社区无法享受到语音驱动技术带来的便利。为了解决这一问题，研究者们提出了Esethu框架，这是一个旨在促进低资源语言数据集创建、管理和可持续发展的社区驱动数据管理框架。该框架的核心是一个新的经济模型，其中许可收入被系统地重新投资于数据集的扩展，以确保持续增长，同时直接惠及创建数据的社区。为了证明这一概念，研究者们开发并发布了Vuk’uzenzele isiXhosa语音数据集（ViXSD），这是一个开源语料库，在Esethu框架和许可下开发。该数据集包含来自本土isiXhosa语者的朗读语音，并丰富了人口统计和语言元数据，展示了社区驱动许可和数据管理原则如何弥合非洲语言自动语音识别的资源差距，同时保护数据创建者的利益。

当前挑战

尽管ViXSD数据集为isiXhosa语言提供了宝贵的资源，但在其创建和使用过程中仍然存在一些挑战。首先，数据集主要集中在新闻类型的文章上，可能存在主题和语言偏差，需要在下游NLP应用中进行仔细的解读。其次，尽管数据集努力确保了说话者的多样性，但目前的数据集可能无法完全代表isiXhosa语者的社会经济和地理范围。最后，数据集的创建和使用必须考虑到数据隐私、文化表示和语言偏差的伦理问题，确保数据创造者的利益得到保护，并促进语言技术的发展。

常用场景

经典使用场景

ViXSD数据集主要用于自动语音识别（ASR）系统的研究和开发，特别是在低资源语言的领域。由于 isiXhosa 语言在南非拥有超过 900 万的母语者，但公开可用的 ASR 数据量却远低于其他语言，ViXSD 数据集的发布为这一领域的学者和开发者提供了宝贵的资源。该数据集包含来自不同性别、口音和背景的本土 isiXhosa 说话者的语音数据，以及丰富的语音和人口统计元数据，为构建和优化适用于 isiXhosa 语言的语音驱动应用程序提供了基础。

解决学术问题

ViXSD 数据集解决了低资源语言在 ASR 领域面临的两个主要问题：数据稀缺和社区赋权。首先，通过社区驱动的数据收集和可持续的许可模式，ViXSD 数据集为低资源语言提供了高质量、多样化的语音数据，填补了数据稀缺的空白。其次，ViXSD 数据集采用了创新的 Esethu 许可证，确保了数据创造者和社区成员能够从他们的语言资源中获得公平的经济利益，从而实现了社区赋权的目标。这些贡献对于推动低资源语言的 ASR 技术发展具有重要意义。

衍生相关工作

ViXSD 数据集的发布促进了低资源语言 ASR 领域的一系列相关研究。例如，研究者可以利用 ViXSD 数据集进行语音识别模型的训练和评估，探索低资源语言 ASR 的最佳实践。此外，ViXSD 数据集还可以用于开发其他低资源语言的语音数据集，推动整个领域的进步。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集