Common Voice Dataset

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/Common-Voice/cv-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Common Voice社区在web平台上的语音贡献，所有语音贡献无论验证状态如何都被包含在内。数据集大约每六个月发布一次，包含各种语音文件和相关的元数据，如年龄、性别、口音等。

This dataset encompasses voice contributions from the Common Voice community on the web platform, including all voice contributions regardless of their verification status. The dataset is released approximately every six months and contains a variety of voice files along with related metadata such as age, gender, accent, etc.

创建时间：

2020-07-17

原始信息汇总

Common Voice Dataset 概述

数据集描述

来源：Common Voice社区通过web平台贡献的语音数据。
更新频率：大约每六个月发布新数据集。
数据处理：所有语音贡献，不论验证状态，均包含在数据集中。数据集通过Common Voice Bundler工具打包并上传至S3。

数据集结构

文件格式：每个下载的.tar.gz文件包含以下结构：

[lang].tar.gz/ ├── clips/ │ ├── *.mp3 files |__ dev.tsv |__ invalidated.tsv |__ other.tsv |__ test.tsv |__ train.tsv |__ validated.tsv |__ reported.tsv (as of Corpus 5.0)
TSV文件内容：每个.tsv文件包含音频文件列表、注释（原始源句子）、哈希client_id、验证数据及相关人口统计信息。

数据集字段

每行代表一个音频剪辑，包含以下信息：
- client_id
- path
- text
- up_votes
- down_votes
- age
- gender
- accent
- segment

数据集使用

机器学习应用：使用Mozilla Corpora Creator工具处理元数据，生成测试、训练和开发集。
数据集划分：测试/训练/开发集的生成是非确定性的，以避免重复和人口统计偏差。

数据集访问

下载建议：对于大型文件下载，建议使用curl命令行工具以支持断点续传。

引用信息

学术引用：如在学术工作中使用，请引用Common Voice: A Massively-Multilingual Speech Corpus。

搜集汇总

数据集介绍

构建方式

Common Voice数据集的构建依托于Mozilla的Common Voice社区平台，通过全球志愿者的语音贡献汇聚而成。每个语音片段均通过Common Voice Bundler工具打包并上传至S3存储，确保数据的高效管理和分发。数据集的更新周期约为每六个月一次，涵盖多种语言，并根据ISO 639-1代码进行分类。每个语音片段的元数据包括转录文本、用户验证信息、以及可选的年龄、性别和口音等人口统计信息。数据集的构建过程中，Mozilla Corpora Creator工具被用于生成训练、验证和测试集，确保数据的去重和说话者多样性。

特点

Common Voice数据集的核心特点在于其大规模的多语言覆盖和社区驱动的验证机制。数据集不仅包含经过验证的语音片段，还保留了未验证和无效的片段，以提供更全面的研究视角。此外，数据集的非确定性划分策略确保了每次发布的训练、验证和测试集的多样性和公平性，避免了潜在的偏见。数据集还特别关注隐私保护，对于说话者少于5人的语言，人口统计信息将被移除。

使用方法

使用Common Voice数据集时，用户可通过访问其官方网站下载完整的.tar.gz文件，文件结构包括语音片段的MP3文件和多个TSV文件，分别记录了验证、无效、其他等不同状态的语音片段信息。用户可根据需求提取特定语言或状态的语音数据，并结合提供的元数据进行机器学习模型的训练和评估。为确保下载的连续性，建议使用curl命令进行下载，并利用其断点续传功能。

背景与挑战

背景概述

Common Voice Dataset 是由 Mozilla 基金会主导的一个大规模多语言语音数据集，旨在推动语音识别技术的普及与多样化。该数据集通过其开放的网络平台收集来自全球志愿者的语音贡献，涵盖多种语言和方言。自发布以来，Common Voice Dataset 每六个月更新一次，不断扩充其语音样本库，为语音识别领域的研究提供了丰富的资源。其核心研究问题在于如何通过众包方式构建高质量、多样化的语音数据集，以支持多语言语音识别模型的训练与评估。该数据集的发布对语音识别技术的民主化和多语言支持具有重要意义，尤其在非主流语言的语音识别研究中发挥了关键作用。

当前挑战

Common Voice Dataset 在构建过程中面临多项挑战。首先，数据集的多样性要求确保不同语言、方言、年龄、性别和口音的语音样本均衡分布，以避免模型训练中的偏见。其次，数据的质量控制是一个持续的挑战，需通过多轮验证机制筛选出高质量的语音样本，同时处理无效或低质量的样本。此外，数据集的隐私保护也是一个重要问题，尤其是在涉及少数语言和少数族群时，需确保用户隐私不被泄露。最后，数据集的下载和使用便利性也是一个技术挑战，尤其是在处理大规模数据文件时，如何优化下载体验以支持研究者和开发者的需求。

常用场景

经典使用场景

Common Voice数据集的经典使用场景主要集中在语音识别和语音合成领域。该数据集为研究人员和开发者提供了丰富的多语言语音数据，支持构建和训练语音识别模型，从而实现从语音到文本的转换。此外，它还可用于语音合成模型的训练，生成自然流畅的语音输出。通过这些应用，Common Voice数据集极大地推动了多语言语音技术的进步。

衍生相关工作

基于Common Voice数据集，许多研究工作得以展开，包括多语言语音识别模型的优化、语音合成技术的改进以及语音数据的质量控制。例如，有研究利用该数据集进行多语言语音识别模型的训练，提升了模型在低资源语言上的表现。此外，还有研究探讨了如何利用数据集中的元数据进行语音数据的自动标注和质量评估，进一步提高了语音数据的利用效率。

数据集最近研究