Common Voice Dataset

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/common-voice/cv-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Common Voice社区在web平台上的语音贡献，所有语音贡献都作为数据集的一部分发布，不论验证状态如何。数据集大约每六个月更新一次，每个下载的`.tar.gz`文件包含特定语言的音频文件和其他相关信息，如验证数据和人口统计数据。

This dataset comprises voice contributions from the Common Voice community on the web platform, with all contributions released as part of the dataset regardless of their verification status. The dataset is updated approximately every six months, and each downloaded `.tar.gz` file contains audio files in a specific language along with other relevant information such as verification data and demographic statistics.

创建时间：

2020-07-17

原始信息汇总

Common Voice Dataset 概述

数据集描述

来源：Common Voice社区通过web平台贡献。
更新频率：约每六个月发布新数据集。
数据内容：所有语音贡献，无论验证状态，均包含在数据集中。仅在用户请求时移除剪辑。
数据结构：每个.tar.gz文件包含特定语言的音频文件和多个.tsv文件，记录文件列表、注释、client_id、验证数据及人口统计信息。

数据集文件结构

数据集字段

client_id：用户哈希UUID。
path：音频文件的相对路径。
text：音频的假设转录。
up_votes：认为音频匹配文本的人数。
down_votes：认为音频不匹配文本的人数。
age：说话者年龄。
gender：说话者性别。
accent：说话者口音。
segment：属于自定义数据集段的句子。

数据集使用

机器学习应用：使用Mozilla Corpora Creator工具处理元数据，生成测试、训练和开发集。
数据集访问：建议使用curl命令行工具下载大型文件，以支持断点续传。

引用信息

文献：Ardila, R. et al. (2020) "Common Voice: A Massively-Multilingual Speech Corpus". Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020).
BibTeX：

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总

数据集介绍

构建方式

Common Voice数据集通过Mozilla的Common Voice社区平台收集，用户自愿贡献语音片段。所有语音片段，无论验证状态，均被纳入数据集。数据集通过Common Voice Bundler工具打包并上传至S3存储。每个数据集版本包含多种语言的语音片段，结构包括音频文件夹和多个.tsv文件，记录了音频文件的路径、转录文本、验证数据及相关的用户人口统计信息。

特点

该数据集的显著特点在于其大规模多语言特性，涵盖多种语言和方言，且包含详细的语音验证和人口统计信息。数据集不仅包括已验证的语音片段，还保留了未验证和无效的片段，以提供更全面的语音数据。此外，数据集定期更新，确保数据的时效性和多样性。

使用方法

用户可通过访问Common Voice官方网站下载完整数据集。数据集提供了详细的元数据，包括音频文件的路径、转录文本、验证数据和用户人口统计信息。为便于机器学习应用，数据集已预先分割为训练集、验证集和测试集，用户可直接使用这些分割进行模型训练和评估。

背景与挑战

背景概述

Common Voice Dataset是由Mozilla基金会主导的一个大规模多语言语音数据集，旨在推动语音识别技术的普及与多样化。该数据集通过其开放的网络平台收集来自全球志愿者的语音贡献，并定期发布更新版本，通常每六个月一次。其核心研究问题在于如何构建一个包含多样化语音特征和语言背景的数据集，以支持多语言语音识别系统的开发与优化。自2020年首次发布以来，Common Voice Dataset已逐渐成为语音识别领域的重要资源，尤其在多语言和多文化背景下，为研究人员提供了丰富的语音数据。

当前挑战

Common Voice Dataset在构建过程中面临多项挑战。首先，数据集的多样性要求涵盖广泛的语言、口音、年龄和性别，这使得数据收集和验证过程复杂化。其次，确保语音数据的准确性和一致性也是一个重要挑战，尤其是在处理多语言和多口音的情况下。此外，数据集的隐私保护和用户匿名化处理也是关键问题，特别是在涉及敏感个人信息时。最后，数据集的发布和更新机制需要不断优化，以确保研究人员能够高效访问和使用这些资源。

常用场景

经典使用场景

Common Voice Dataset 的经典使用场景主要集中在语音识别和语音合成领域。该数据集通过收集来自全球不同语言和口音的语音样本，为研究人员提供了丰富的多语言语音数据资源。这些数据可用于训练和评估语音识别模型，如自动语音识别（ASR）系统，以及语音合成模型，如文本到语音（TTS）系统。通过利用该数据集，研究者能够开发出更加准确和多样化的语音处理技术，从而提升用户体验。

实际应用

在实际应用中，Common Voice Dataset 被广泛用于开发和优化语音助手、语音翻译工具以及语音控制设备等。例如，智能语音助手可以通过该数据集进行训练，以更好地理解和响应不同语言和口音的用户指令。此外，语音翻译工具也可以利用该数据集提升其对多语言语音的识别和翻译能力，从而在跨语言交流中发挥更大的作用。

衍生相关工作

基于 Common Voice Dataset，许多研究工作得以展开，尤其是在多语言语音识别和语音合成领域。例如，有研究者利用该数据集开发了多语言语音识别模型，显著提升了模型在不同语言和口音上的表现。此外，还有研究聚焦于利用该数据集进行语音合成模型的训练，以生成更加自然和多样化的语音输出。这些衍生工作不仅丰富了语音处理技术的研究内容，还推动了相关技术的实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集