common_voice_18_0

Hugging Face2024-08-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/fsicoli/common_voice_18_0

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice Corpus 18.0是一个非官方版本的Mozilla Common Voice数据集，包含多种语言的语音数据，支持自动语音识别任务。用户可以通过datasets库下载和预处理数据，支持本地和流式加载。数据实例包括音频文件路径、句子以及其他相关信息如口音、年龄、性别等。数据集遵循CC-0许可，属于公共领域。

Common Voice Corpus 18.0 is an unofficial variant of the Mozilla Common Voice dataset. It contains multilingual speech data and supports automatic speech recognition (ASR) tasks. Users can download and preprocess the dataset via the `datasets` library, with support for both local and streaming loading. Data instances include audio file paths, transcribed sentences, and other relevant metadata such as accent, age, gender, and so on. The dataset is licensed under CC-0 and falls into the public domain.

创建时间：

2024-08-12

原始信息汇总

数据集卡片 for Common Voice Corpus 18.0

概述

该数据集是Mozilla Common Voice Corpus 18的非官方版本，从项目网站https://commonvoice.mozilla.org/下载并转换而来。

语言

该数据集包含以下语言：

阿布哈兹语, 阿尔巴尼亚语, 阿姆哈拉语, 阿拉伯语, 亚美尼亚语, 阿萨姆语, 阿斯图里亚斯语, 阿塞拜疆语, 巴萨语, 巴什基尔语, 巴斯克语, 白俄罗斯语, 孟加拉语, 布列塔尼语, 保加利亚语, 粤语, 加泰罗尼亚语, 中库尔德语, 中文（中国）, 中文（香港）, 中文（台湾）, 楚瓦什语, 捷克语, 丹麦语, 迪维希语, 迪乌拉语, 荷兰语, 英语, 厄尔兹亚语, 世界语, 爱沙尼亚语, 芬兰语, 法语, 弗里西亚语, 加利西亚语, 格鲁吉亚语, 德语, 希腊语, 瓜拉尼语, 哈卡钦语, 豪萨语, 希尔马里语, 印地语, 匈牙利语, 冰岛语, 伊博语, 印度尼西亚语, 因特林瓜语, 爱尔兰语, 意大利语, 日语, 卡拜尔语, 哈萨克语, 基尼亚尔瓦语, 韩语, 库尔德语（库尔曼吉）, 吉尔吉斯语, 老挝语, 拉脱维亚语, 立陶宛语, 卢干达语, 马其顿语, 马拉雅拉姆语, 马耳他语, 马拉地语, 草原马里语, 莫克沙语, 蒙古语, 尼泊尔语, 挪威尼诺斯克语, 奥克西坦语, 奥里亚语, 普什图语, 波斯语, 波兰语, 葡萄牙语, 旁遮普语, 昌卡语, 罗马尼亚语, 罗曼什语（苏尔西尔文）, 罗曼什语（瓦拉德语）, 俄语, 萨哈语, 桑塔利语（奥尔奇基语）, 萨拉伊基语, 撒丁语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 索布语, 上索布语, 西班牙语, 斯瓦希里语, 瑞典语, 台湾闽南语, 塔马齐格特语, 泰米尔语, 鞑靼语, 泰语, 提格里尼亚语, 提格雷语, 托克皮辛语, 土耳其语, 土库曼语, 特威语, 乌克兰语, 乌尔都语, 维吾尔语, 乌兹别克语, 越南语, 沃蒂克语, 威尔士语, 约鲁巴语

如何使用

可以使用datasets库在纯Python中加载和预处理数据集。通过调用load_dataset函数，可以将数据集下载并准备到本地驱动器。

例如，下载葡萄牙语配置： python from datasets import load_dataset

cv_18 = load_dataset("fsicoli/common_voice_18_0", "pt", split="train")

也可以通过添加streaming=True参数在流模式下加载数据集： python from datasets import load_dataset

cv_18 = load_dataset("fsicoli/common_voice_18_0", "pt", split="train", streaming=True)

print(next(iter(cv_18)))

数据集结构

一个典型的数据点包括音频文件的路径及其句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、性别、locale和segment。

许可信息

公共领域，CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总

数据集介绍

构建方式

Common Voice 18.0数据集是通过全球志愿者贡献的语音样本构建而成。该数据集涵盖了多种语言和方言，志愿者通过在线平台录制并上传他们的语音数据。每个语音样本都经过社区成员的验证和标注，确保数据的准确性和多样性。数据集的构建过程强调开放性和透明性，所有数据均以公共领域许可发布，便于广泛使用和研究。

特点

Common Voice 18.0数据集以其多语言支持和高质量标注著称。数据集包含超过数千小时的语音数据，覆盖了多种语言和方言，为语音识别和自然语言处理研究提供了丰富的资源。每个语音样本都附带有详细的元数据，如说话者的年龄、性别和地理位置，这些信息有助于进行更深入的分析和模型训练。数据集的多样性和广泛性使其成为跨语言研究的理想选择。

使用方法

Common Voice 18.0数据集适用于多种语音相关的研究和应用，如自动语音识别、语音合成和语言模型训练。研究人员可以通过Hugging Face平台轻松访问和下载数据集，利用其丰富的元数据进行特定语言或方言的研究。数据集的结构化格式便于直接用于机器学习模型的训练和评估，同时其开放的许可允许广泛的商业和非商业应用。

背景与挑战

背景概述

Common Voice 18.0数据集由Mozilla基金会于2018年推出，旨在推动语音识别技术的开源发展。该数据集的核心研究问题在于如何通过众包方式收集多语言、多方言的语音数据，以支持全球范围内的语音识别模型训练。数据集涵盖了多种语言和口音，极大地丰富了语音识别领域的多样性，为研究人员提供了宝贵的资源。其影响力不仅体现在技术层面，还促进了语音技术的普及与公平性，特别是在资源匮乏的语言和地区中。

当前挑战

Common Voice 18.0数据集在解决语音识别领域问题时面临多重挑战。首先，语音数据的多样性和复杂性使得模型训练需要处理大量的噪声和变体，例如口音、语速和背景噪音。其次，数据集的构建过程中，如何确保众包数据的质量与一致性是一个关键问题，尤其是在多语言和多方言的背景下。此外，数据标注的准确性和完整性也对模型的性能产生了直接影响。这些挑战不仅考验了数据集的构建方法，也对后续的语音识别技术提出了更高的要求。

常用场景

经典使用场景

Common Voice 18.0数据集广泛应用于语音识别和语音合成领域的研究。该数据集通过收集全球多种语言的语音样本，为研究者提供了一个多语言、多方言的语音数据库。研究者可以利用这些数据训练和测试语音识别模型，特别是在低资源语言环境下的性能优化。此外，该数据集还支持语音合成技术的研究，帮助开发更加自然和流畅的语音生成系统。

解决学术问题

Common Voice 18.0数据集解决了语音技术研究中数据稀缺和多样性不足的问题。通过提供大量多语言、多方言的语音样本，该数据集使得研究者能够在更广泛的语境下验证和优化语音识别和合成算法。特别是在低资源语言的研究中，该数据集填补了数据空白，推动了这些语言的语音技术进步。此外，数据集的开源性质也促进了学术界的合作与共享，加速了语音技术领域的发展。

衍生相关工作

Common Voice 18.0数据集衍生了许多经典的研究工作，特别是在多语言语音识别和语音合成领域。例如，基于该数据集的研究成果包括多语言端到端语音识别模型的开发、低资源语言语音合成技术的改进等。这些工作不仅提升了语音技术的性能，还为后续研究提供了宝贵的参考。此外，该数据集还促进了开源社区的合作，推动了语音技术领域的创新与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集