fsicoli/common_voice_17_0

Name: fsicoli/common_voice_17_0
Creator: fsicoli
Published: 2024-08-08 13:57:44
License: 暂无描述

Hugging Face2024-08-08 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/fsicoli/common_voice_17_0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Mozilla Common Voice Corpus 17的非官方版本，包含了多种语言的语音数据。数据集的结构包括音频文件的路径和对应的句子，以及其他字段如口音、年龄、客户端ID、赞成票、反对票、性别、地区和片段。数据集的使用可以通过datasets库进行加载和预处理，支持本地和流式加载。数据集的许可信息为公共领域，CC-0。

This is an unofficial version of the Mozilla Common Voice Corpus 17, encompassing speech data across multiple languages. The dataset structure consists of audio file paths, their corresponding sentences, and supplementary fields including accent, age, client ID, upvotes, downvotes, gender, region, and segment. It can be loaded and preprocessed via the Hugging Face Datasets library, supporting both local and streaming loading workflows. The dataset is licensed under the CC-0 public domain license.

提供机构：

fsicoli

原始信息汇总

数据集概述

基本信息

数据集名称: Common Voice Corpus 17.0
许可证: CC0-1.0
语言: 包含多种语言，如Abkhaz, Albanian, Amharic等
任务类别: 自动语音识别
大小类别: 100B<n<1T
标签: Mozilla, Foundation

数据集结构

数据实例: 每个数据点包括音频文件路径及其对应的句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、性别、地区和段落。

使用方法

加载数据集: 使用load_dataset函数下载并准备数据集。例如，加载葡萄牙语数据集的代码如下： python from datasets import load_dataset cv_17 = load_dataset("fsicoli/common_voice_17_0", "pt", split="train")
流式加载: 通过设置streaming=True，可以实现数据集的流式加载。 python cv_17 = load_dataset("fsicoli/common_voice_17_0", "pt", split="train", streaming=True)
创建PyTorch数据加载器: 支持本地和流式数据集的PyTorch数据加载器创建。

许可证信息

许可证: 公共领域，CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建大规模多语言数据集是推动技术发展的关键。Common Voice Corpus 17.0作为Mozilla Common Voice项目的非官方版本，其构建过程依托于开源社区的众包贡献。数据集通过Common Voice平台收集，全球志愿者自愿录制并验证语音片段，确保了数据的多样性和真实性。原始音频文件从项目官网下载后，经过格式转换与结构化整理，形成了涵盖百余种语言配置的标准化语料库。这一构建方式不仅体现了众包协作的高效性，也为语音技术在多语言环境下的泛化能力提供了坚实基础。

特点

该数据集在语音识别领域展现出显著的多语言与多样性特征。其覆盖了超过一百种语言与方言，包括许多资源稀缺语种，如阿布哈兹语、巴斯克语等，为低资源语言研究提供了宝贵素材。每个数据实例包含音频文件路径、对应文本句子及说话人元数据（如口音、年龄、性别等），结构清晰完整。数据规模庞大，总量介于1000亿至1万亿字符之间，足以支持大规模模型训练。此外，所有数据均采用CC0许可，允许自由使用与分发，极大促进了学术与工业界的开放创新。

使用方法

利用该数据集进行语音识别研究时，可通过Hugging Face的datasets库高效加载与预处理。用户需指定目标语言配置代码（如“pt”代表葡萄牙语），调用load_dataset函数即可将数据下载至本地或进行流式读取。流式模式支持动态加载样本，避免全量数据磁盘占用，适用于内存受限环境。数据集可直接与PyTorch等深度学习框架集成，通过DataLoader构建数据管道，实现批量化训练。对于更深入的音频数据处理技巧，可参考Hugging Face官方博客，以充分发挥该多语言语料库在自动语音识别任务中的潜力。

背景与挑战

背景概述

在语音技术领域，多语言语音识别系统的开发长期受限于高质量、大规模语音数据的匮乏。Mozilla基金会于2020年推出的Common Voice项目，旨在通过众包方式构建一个开源、多语言的语音语料库，以促进语音技术的民主化与普及化。该项目由Ardila等人主导，核心研究问题聚焦于解决低资源语言语音数据的稀缺性，并推动自动语音识别技术在多样化语言环境中的公平应用。Common Voice Corpus 17.0作为该项目的迭代版本，覆盖了超过100种语言，包括许多资源匮乏的语种，显著提升了全球语音技术研究的包容性与可及性，对跨语言语音模型的发展产生了深远影响。

当前挑战

Common Voice数据集致力于解决自动语音识别领域中的多语言与低资源语言识别挑战，其核心在于应对语言多样性带来的声学模型泛化难题，以及方言、口音和录音环境差异所引入的数据异质性。在构建过程中，项目面临诸多实际困难：众包数据收集需确保录音质量与文本标注的准确性，这涉及复杂的质量控制流程；同时，平衡不同语言的数据量以避免模型偏差，并处理隐私与伦理问题，如参与者信息的匿名化，均为关键挑战。此外，整合来自全球用户的多样化录音设备与背景噪音，进一步增加了数据预处理与标准化的复杂性。

常用场景

经典使用场景

在语音技术领域，Common Voice Corpus 17.0作为大规模多语言开源语音数据集，其经典使用场景集中于自动语音识别模型的训练与评估。研究者利用其覆盖百余种语言的特性，构建跨语言的语音识别基准系统，尤其在低资源语言场景下，该数据集提供了宝贵的标注语音资源，支持端到端语音识别框架的开发与优化。通过统一的音频与文本配对结构，它促进了多语言语音识别模型的公平比较与性能提升。

实际应用

在实际应用层面，Common Voice数据集被广泛集成于智能助手、实时翻译系统及无障碍技术中。企业利用其多语言语音数据训练商用语音识别引擎，提升产品在全球化市场的适应性；教育机构则借助该资源开发语言学习工具，支持母语保持与第二语言习得。此外，在医疗、金融等垂直领域，基于该数据集的语音接口增强了服务的可及性，尤其惠及使用非主流语言的用户群体。

衍生相关工作

围绕Common Voice数据集，学术界衍生了一系列经典研究工作。例如，基于其多语言特性开发的Whisper系列模型实现了零样本跨语言语音识别；XLS-R等自监督预训练模型利用该数据提升了低资源语言的识别鲁棒性。同时，该数据集也催生了如语音性别平衡分析、口音适应性建模等细分研究方向，为语音技术的公平性与包容性提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集