five

fsicoli/common_voice_15_0

收藏
Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fsicoli/common_voice_15_0
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice Corpus 15.0数据集是Mozilla Common Voice Corpus 15的非官方版本,包含了多种语言的语音数据,主要用于自动语音识别任务。数据集支持的语言包括阿布哈兹语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿萨姆语、阿斯图里亚斯语、阿塞拜疆语、巴萨语、巴什基尔语、巴斯克语、白俄罗斯语、孟加拉语、布列塔尼语、保加利亚语、粤语、加泰罗尼亚语、中央库尔德语、中文(中国)、中文(香港)、中文(台湾)、楚瓦什语、捷克语、丹麦语、迪维希语、迪乌拉语、荷兰语、英语、埃尔齐亚语、世界语、爱沙尼亚语、芬兰语、法语、弗里斯兰语、加利西亚语、格鲁吉亚语、德语、希腊语、瓜拉尼语、哈卡钦语、豪萨语、山地马里语、印地语、匈牙利语、冰岛语、伊博语、印度尼西亚语、国际语、爱尔兰语、意大利语、日语、卡拜尔语、哈萨克语、基尼亚卢旺达语、韩语、库尔德语、吉尔吉斯语、老挝语、拉脱维亚语、立陶宛语、卢干达语、马其顿语、马拉雅拉姆语、马耳他语、马拉地语、草地马里语、莫克沙语、蒙古语、尼泊尔语、挪威尼诺斯克语、奥克语、奥里亚语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、查卡克丘亚语、罗马尼亚语、罗曼什语、俄语、萨哈语、桑塔利语(奥尔奇基语)、萨拉基语、撒丁语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、索布语、西班牙语、斯瓦希里语、瑞典语、台湾闽南语、塔马齐格特语、泰米尔语、鞑靼语、泰语、提格利尼亚语、托基波纳语、土耳其语、土库曼语、特威语、乌克兰语、乌尔都语、维吾尔语、乌兹别克语、越南语、沃提克语、威尔士语、约鲁巴语。数据集可以通过datasets库加载和预处理,支持本地和流式加载方式。数据集的结构包括音频文件路径和对应的句子,以及其他字段如口音、年龄、客户端ID、点赞数、点踩数、性别、地区和片段。数据集的许可为公共领域,CC-0。
提供机构:
fsicoli
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Common Voice Corpus 15.0
  • 许可证: cc
  • 任务类别: 自动语音识别
  • 数据集大小: 100B<n<1T
  • 标签: mozilla, foundation

语言

  • Abkhaz, Albanian, Amharic, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dioula, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Icelandic, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Korean, Kurmanji Kurdish, Kyrgyz, Lao, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Occitan, Odia, Pashto, Persian, Polish, Portuguese, Punjabi, Quechua Chanka, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamazight, Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Turkmen, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh, Yoruba

使用方法

  • 下载与加载: 使用 load_dataset 函数可以从本地驱动器下载和准备数据集。例如,下载葡萄牙语配置: python from datasets import load_dataset cv_15 = load_dataset("fsicoli/common_voice_15_0", "pt", split="train")

  • 流式加载: 通过添加 streaming=True 参数,可以流式加载数据集: python from datasets import load_dataset cv_15 = load_dataset("fsicoli/common_voice_15_0", "pt", split="train", streaming=True) print(next(iter(cv_15)))

  • 创建 PyTorch 数据加载器:

    • 本地加载: python from datasets import load_dataset from torch.utils.data.sampler import BatchSampler, RandomSampler cv_15 = load_dataset("fsicoli/common_voice_15_0", "pt", split="train") batch_sampler = BatchSampler(RandomSampler(cv_15), batch_size=32, drop_last=False) dataloader = DataLoader(cv_15, batch_sampler=batch_sampler)

    • 流式加载: python from datasets import load_dataset from torch.utils.data import DataLoader cv_15 = load_dataset("fsicoli/common_voice_15_0", "pt", split="train") dataloader = DataLoader(cv_15, batch_size=32)

数据结构

  • 数据实例: 每个数据点包含音频文件的路径及其句子。其他字段包括口音、年龄、客户端ID、赞同票、反对票、性别、地区和段落。

许可证信息

  • 公共领域: CC-0

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作