common_voice_19_0

Hugging Face2024-09-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/fsicoli/common_voice_19_0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Mozilla Common Voice Corpus 19的非官方版本，包含多种语言的语音数据，适用于自动语音识别任务。数据集提供音频文件及其对应的句子，以及口音、年龄、客户端ID、点赞数、点踩数、性别、地区和片段等附加元数据。数据集采用CC-0许可证，属于公共领域。用户可以使用Python中的datasets库加载和预处理数据集，既可以下载到本地存储，也可以按需流式加载。此外，该数据集还可用于创建PyTorch数据加载器，以便训练模型。

This is an unofficial version of the Mozilla Common Voice Corpus 19 dataset, which contains multilingual speech data for automatic speech recognition tasks. The dataset provides audio files along with their corresponding sentences, as well as additional metadata including accent, age, client ID, upvotes, downvotes, gender, region, and segment. It is released under the CC-0 license and is in the public domain. Users can load and preprocess the dataset using the `datasets` library in Python, with options to either download it to local storage or stream it on demand. Additionally, this dataset can be used to create PyTorch data loaders for model training.

创建时间：

2024-09-18

原始信息汇总

数据集卡片：Common Voice Corpus 19.0

概述

数据集名称: Common Voice Corpus 19.0
数据集类型: 语音数据集
任务类别: 自动语音识别
数据集大小: 100B < n < 1T
标签: mozilla, foundation
许可证: CC0-1.0（公共领域）

语言

Abkhaz, Albanian, Amharic, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Pashto, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamazight, Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba

使用方法

下载与加载

使用 datasets 库的 load_dataset 函数可以下载和预处理数据集。
示例：下载葡萄牙语配置 python from datasets import load_dataset cv_19 = load_dataset("fsicoli/common_voice_19_0", "pt", split="train")

流式加载

通过添加 streaming=True 参数，可以流式加载数据集。 python from datasets import load_dataset cv_19 = load_dataset("fsicoli/common_voice_19_0", "pt", split="train", streaming=True) print(next(iter(cv_19)))

PyTorch DataLoader

本地加载 python from datasets import load_dataset from torch.utils.data.sampler import BatchSampler, RandomSampler cv_19 = load_dataset("fsicoli/common_voice_19_0", "pt", split="train") batch_sampler = BatchSampler(RandomSampler(cv_19), batch_size=32, drop_last=False) dataloader = DataLoader(cv_19, batch_sampler=batch_sampler)
流式加载 python from datasets import load_dataset from torch.utils.data import DataLoader cv_19 = load_dataset("fsicoli/common_voice_19_0", "pt", split="train") dataloader = DataLoader(cv_19, batch_size=32)

数据结构

数据实例: 每个数据点包含音频文件路径和对应的句子。其他字段包括口音、年龄、客户端ID、点赞数、点踩数、性别、语言环境、段落等。

许可证信息

许可证: CC0-1.0（公共领域）

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总

数据集介绍

构建方式

Common Voice Corpus 19.0数据集是通过Mozilla Common Voice项目收集和构建的，该项目旨在通过众包方式收集多语言的语音数据。数据来源于全球各地的志愿者，他们通过录制和验证语音样本来贡献数据。数据集经过严格的预处理和质量控制，确保语音样本的多样性和准确性。每个语音样本都附带有相应的文本转录，涵盖了多种语言和方言，形成了一个大规模、多语言的语音语料库。

特点

该数据集的特点在于其广泛的语言覆盖和丰富的元数据信息。它包含了超过100种语言的语音样本，每种语言都有大量的语音数据，涵盖了不同的口音、年龄、性别等多样性特征。此外，每个语音样本都附带有详细的元数据，如口音、年龄、性别、客户端ID等，这些信息为语音识别和语音合成的研究提供了丰富的上下文信息。数据集的结构清晰，便于研究人员快速加载和使用。

使用方法

使用该数据集时，可以通过Hugging Face的datasets库进行加载和预处理。用户可以通过指定语言配置名称来下载特定语言的语音数据，例如使用'pt'配置加载葡萄牙语数据。数据集支持流式加载模式，允许用户在不需要下载整个数据集的情况下逐样本加载数据。此外，用户还可以将数据集直接转换为PyTorch的DataLoader，方便在深度学习模型中进行训练和评估。详细的加载和预处理方法可以参考Hugging Face的官方文档。

背景与挑战

背景概述

Common Voice Corpus 19.0是由Mozilla基金会主导的一个大规模多语言语音数据集，旨在推动自动语音识别（ASR）技术的发展。该数据集于2020年首次发布，涵盖了超过100种语言，包括许多低资源语言，如阿布哈兹语、巴斯克语和楚瓦什语等。通过众包的方式，Common Voice收集了大量来自全球各地的语音样本，并提供了丰富的元数据，如说话者的年龄、性别、口音等。这一数据集不仅为语音识别领域的研究提供了宝贵的资源，还促进了语言多样性和包容性在技术发展中的体现。其影响力不仅限于学术界，还延伸至工业界，成为许多语音识别系统的重要训练数据来源。

当前挑战

Common Voice Corpus 19.0在构建和应用过程中面临多重挑战。首先，数据集的多样性和规模带来了数据质量控制的难题，尤其是在低资源语言中，语音样本的准确性和一致性难以保证。其次，众包模式虽然能够快速积累大量数据，但也引入了噪声和不一致性，例如语音与文本不匹配或背景噪音干扰。此外，多语言环境下的语音识别任务本身具有较高的复杂性，不同语言的语音特征、语法结构和发音规则差异显著，这对模型的泛化能力提出了更高的要求。最后，数据集的隐私和伦理问题也不容忽视，如何在保护用户隐私的同时提供高质量的数据，是数据集构建过程中需要持续关注的问题。

常用场景

经典使用场景

Common Voice Corpus 19.0数据集广泛应用于自动语音识别（ASR）领域，特别是在多语言语音识别模型的训练与评估中。该数据集包含了超过100种语言的语音样本，涵盖了从常见语言到少数语言的广泛范围，为研究人员提供了一个丰富的多语言语音数据资源。通过该数据集，研究人员可以构建和优化跨语言的语音识别系统，提升模型在不同语言环境下的泛化能力。

实际应用

在实际应用中，Common Voice Corpus 19.0被广泛用于开发多语言语音助手、语音翻译系统和语音驱动的用户界面。例如，基于该数据集训练的模型可以应用于全球化的客户服务系统，支持多种语言的语音输入和输出。此外，该数据集还被用于教育领域，帮助开发语言学习工具，提升语言学习者的发音准确性和听力理解能力。

衍生相关工作

Common Voice Corpus 19.0催生了许多经典的多语言语音识别研究工作。例如，基于该数据集的研究提出了多种跨语言迁移学习方法，显著提升了低资源语言的识别性能。此外，该数据集还被用于开发开源语音识别工具包，如Mozilla的DeepSpeech项目，推动了语音识别技术的民主化和普及化。这些工作不仅扩展了语音识别的应用范围，还为未来的多语言语音技术研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集