common_voice_21_0

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/ming030890/common_voice_21_0

下载链接

链接失效反馈

资源简介：

Common Voice Corpus 21.0是一个包含多种语言的语音数据集，支持自动语音识别任务。数据集可以从Mozilla的Common Voice项目网站下载并转换为适合的格式。它包含了Abkhaz到Yoruba等多种语言，每个数据点包含音频文件和相应的文本句子，以及额外的信息如说话者的口音、年龄和性别等。这个数据集是公共领域的，用户可以自由使用。

Common Voice Corpus 21.0 is a multilingual speech dataset tailored for automatic speech recognition (ASR) tasks. It can be downloaded from the official website of the Mozilla Common Voice Project and converted into suitable formats. The corpus covers languages ranging from Abkhaz to Yoruba, where each data instance includes audio files, corresponding textual sentences, and additional metadata such as the speaker’s accent, age, and gender. This dataset is released into the public domain, enabling users to utilize it freely.

创建时间：

2025-06-21

原始信息汇总

Common Voice Corpus 21.0 数据集概述

基本信息

许可证: CC0-1.0
任务类别: 自动语音识别
数据集名称: Common Voice Corpus 21.0
大小类别: 100B < n < 1T
标签: mozilla, foundation

语言支持

支持以下语言： Abkhaz, Albanian, Amharic, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Pashto, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamazight, Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba

使用方法

加载数据集

python from datasets import load_dataset cv_21 = load_dataset("fsicoli/common_voice_21_0", "pt", split="train")

流式加载

python from datasets import load_dataset cv_21 = load_dataset("fsicoli/common_voice_21_0", "pt", split="train", streaming=True) print(next(iter(cv_21)))

创建PyTorch数据加载器

本地模式

python from datasets import load_dataset from torch.utils.data.sampler import BatchSampler, RandomSampler cv_21 = load_dataset("fsicoli/common_voice_21_0", "pt", split="train") batch_sampler = BatchSampler(RandomSampler(cv_21), batch_size=32, drop_last=False) dataloader = DataLoader(cv_21, batch_sampler=batch_sampler)

流式模式

python from datasets import load_dataset from torch.utils.data import DataLoader cv_21 = load_dataset("fsicoli/common_voice_21_0", "pt", split="train") dataloader = DataLoader(cv_21, batch_size=32)

数据结构

数据实例: 包含音频文件路径、句子、口音、年龄、客户端ID、赞成票、反对票、性别、区域和片段等信息。

许可信息

许可证类型: 公共领域, CC-0

引用信息

bibtex @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

AI搜集汇总

数据集介绍

构建方式

Common Voice Corpus 21.0数据集作为Mozilla基金会主导的多语言语音识别资源，采用众包模式构建而成。该数据集通过Common Voice平台收集全球志愿者贡献的语音样本，涵盖百余种语言和方言变体。每个语音片段均经过严格的质控流程，包括用户自检和社区投票机制，确保语音与文本转录的精确对齐。数据采集过程特别注重说话人元数据的完整性，包含年龄、性别、口音等社会语言学特征，为语音技术研究提供了丰富的辅助信息。

使用方法

利用Hugging Face数据集库可高效加载该资源，支持按语言配置灵活选择子集。通过指定语言代码（如'pt'代表葡萄牙语）即可调用load_dataset函数完成本地下载或流式加载。高级应用场景支持与PyTorch生态无缝集成，开发者可直接构建数据加载器进行批量处理。对于超大规模实验，流式模式可动态加载样本，显著降低本地存储需求。数据集卡片提供了完整的音频预处理指南，便于研究者快速开展语音识别、语音合成等任务的模型训练。

背景与挑战

背景概述

Common Voice Corpus 21.0是由Mozilla基金会主导构建的大规模多语言语音数据集，旨在推动自动语音识别（ASR）技术的研究与发展。该数据集于2020年首次发布，涵盖了包括英语、中文、法语等在内的近百种语言，每种语言均包含大量由全球志愿者贡献的语音样本及其对应文本。作为开源项目，Common Voice不仅为语音识别领域提供了丰富的数据资源，还促进了低资源语言的技术进步，成为跨语言语音研究的重要基准。

当前挑战

Common Voice数据集面临的主要挑战包括多语言语音识别的复杂性，尤其是低资源语言的样本稀缺性和发音多样性问题。构建过程中，数据收集与标注的标准化是一大难点，需确保不同语言、口音和录音环境下的数据质量一致。此外，数据集的规模庞大也带来了存储与处理的挑战，如何在保证数据多样性的同时优化数据管理流程，是技术实现上的关键问题。

常用场景

经典使用场景

在语音识别领域，Common Voice Corpus 21.0数据集以其多语言特性成为研究者的首选资源。该数据集覆盖了从阿布哈兹语到祖鲁语等上百种语言，为开发跨语言自动语音识别（ASR）系统提供了丰富的训练素材。研究者通常利用其标准化音频片段和对应文本标注，构建端到端的语音转文字模型，尤其适合探索低资源语言的识别难题。

解决学术问题

该数据集有效缓解了语音技术研究中数据稀缺性的核心矛盾。通过众包采集的多样化发音样本，解决了传统语音数据集中存在的方言覆盖不足、年龄性别分布失衡等问题。其公开授权特性允许学者自由探索多语种语音表征学习、零样本迁移学习等前沿方向，显著推动了语音技术民主化进程。

实际应用

实际应用中，科技公司借助该数据集开发支持小众语言的语音助手，如西非约鲁巴语智能客服系统。教育机构利用其构建发音评估工具，帮助学习者纠正口音。在数字包容领域，该数据集助力开发面向视障人士的母语屏幕阅读器，使技术红利惠及全球边缘化社群。

数据集最近研究