Common Voice中的克丘亚语音数据集

Name: Common Voice中的克丘亚语音数据集
Creator: Innsbruck大学，奥地利；阿蒂普拉诺普诺国立大学，秘鲁
Published: 2025-10-13 20:44:17
License: 暂无描述

arXiv2025-10-13 更新2025-11-05 收录

下载链接：

https://github.com/common-voice/cv-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice克丘亚语音数据集是Mozilla的一个项目，旨在为资源匮乏的语言创建和扩展语音数据集。该数据集目前包含191.1小时的克丘亚语音数据，其中包含12小时的普诺克丘亚语（77%已验证），强调了Common Voice的潜力。数据集的创建过程涉及语言上板和语料库收集，包括朗读和自发性语音数据。该数据集有助于促进包容性语音技术和数字赋权，以及解决资源匮乏语言在语音技术发展中的数据短缺问题。

The Common Voice Quechua Speech Dataset is a Mozilla-initiated project dedicated to creating and expanding speech datasets for under-resourced languages. Currently, this dataset holds 191.1 hours of Quechua speech data, including 12 hours of Puno Quechua (77% verified), which underscores the potential of the Common Voice initiative. The dataset creation process involves language annotation and corpus collection, encompassing both read speech and spontaneous speech data. This dataset facilitates the advancement of inclusive speech technology and digital empowerment, while also addressing the data scarcity issue faced by under-resourced languages in the development of speech technologies.

提供机构：

Innsbruck大学，奥地利；阿蒂普拉诺普诺国立大学，秘鲁

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

在资源稀缺语言技术发展背景下，Common Voice克丘亚语音数据集采用社区驱动的协作模式构建。通过语言上线和语料收集两大核心环节，研究者首先在GitHub平台提交语言提案，经批准后在Pontoon完成界面本地化翻译。语料收集阶段聚焦于获取CC0许可的文本素材，以普诺克丘亚语为例，共采集2065条涵盖11个主题领域的句子，为后续语音录制奠定文本基础。整个构建过程依托志愿者群体的三重贡献机制：文本提交、语音录制与交叉验证，形成可持续的数据生产闭环。

使用方法

研究者可通过Common Voice开放数据接口获取标准化格式的语音资源，该数据集支持多维度研究应用。在语音技术开发领域，经验证的86%高质量语音适用于训练端到端语音识别模型，而包含非标准发音模式的自发语音则能增强模型鲁棒性。语言学者可借助跨方言对比分析功能，探究如“ashkha”等词汇在南部克丘亚语中的音系变异。使用过程中需注意结合离线采集工具克服数字鸿沟，并遵循社区伦理准则，确保技术应用与语言文化遗产保护形成良性互动。

背景与挑战

背景概述

在语言技术领域，资源匮乏语言长期面临数据稀缺的困境，克丘亚语作为南美洲重要的土著语言体系尤为典型。2025年，由因斯布鲁克大学与阿尔蒂普拉诺国立大学联合开展的克丘亚语音数据集研究，依托Mozilla Common Voice开放平台，系统性地整合了17种克丘亚语变体。该研究以普诺克丘亚语为典型案例，通过社区驱动的语料采集模式，累计收录191.1小时有效语音数据，其中普诺方言贡献12小时经过严格验证的语音样本。这项开创性工作不仅填补了安第斯语言在语音技术领域的空白，更构建了土著语言数字化的可持续发展范式。

当前挑战

构建过程中面临多重挑战：在技术层面需解决克丘亚语复杂方言变体的正字法标准化问题，确保不同变体在平台中的准确呈现；语料收集需平衡11个主题领域的句子分布，避免数据偏差影响模型鲁棒性；社区参与受制于偏远地区的网络覆盖不足与数字素养局限，需设计线上线下混合采集方案。在语言学层面，自发语音采集需处理双语者频繁的克丘亚语-西班牙语语码转换现象，同时要捕捉自然对话中的停顿、重复等副语言特征。这些挑战共同指向资源匮乏语言技术化过程中技术与社群的深度耦合需求。

常用场景

经典使用场景

在资源稀缺语言的语音技术研究中，Common Voice中的克丘亚语音数据集为语音识别和文本转语音系统开发提供了关键支撑。该数据集通过社区驱动的数据收集模式，汇集了191.1小时的克丘亚语语音素材，其中86%经过严格验证，为构建鲁棒性强的语音处理模型奠定了坚实基础。研究人员利用该数据集训练端到端的语音识别系统，特别针对克丘亚语特有的音系特征进行模型优化，有效解决了低资源语言在语音技术开发中的数据瓶颈问题。

解决学术问题

该数据集显著缓解了克丘亚语等资源稀缺语言在计算语言学领域面临的数据荒漠困境。通过提供大规模、高质量的语音-文本对齐数据，研究人员能够突破传统语音识别模型对海量训练数据的依赖，为低资源语言的语音技术研究开辟了新路径。数据集涵盖的17种克丘亚语变体及其方言差异，为语言多样性保护、跨方言语音识别模型构建等前沿课题提供了宝贵的研究素材，推动了语言技术领域的包容性发展。

实际应用

在实际应用层面，该数据集支撑的语音技术已逐步融入克丘亚语社区的数字化生活。基于数据集训练的语音助手能够帮助母语者通过语音指令获取信息服务，特别是在农业咨询、医疗健康等关键领域发挥重要作用。在秘鲁普诺地区，本地化语音交互系统的部署使得不熟悉文字输入的克丘亚语使用者也能便捷使用数字工具，这种技术赋能有效促进了语言在数字空间的活态传承，为土著语言的数字化生存提供了实践范本。

数据集最近研究