common_voice_18_0
收藏数据集卡片 for Common Voice Corpus 18.0
概述
该数据集是Mozilla Common Voice Corpus 18的非官方版本,从项目网站https://commonvoice.mozilla.org/下载并转换而来。
语言
该数据集包含以下语言:
- 阿布哈兹语, 阿尔巴尼亚语, 阿姆哈拉语, 阿拉伯语, 亚美尼亚语, 阿萨姆语, 阿斯图里亚斯语, 阿塞拜疆语, 巴萨语, 巴什基尔语, 巴斯克语, 白俄罗斯语, 孟加拉语, 布列塔尼语, 保加利亚语, 粤语, 加泰罗尼亚语, 中库尔德语, 中文(中国), 中文(香港), 中文(台湾), 楚瓦什语, 捷克语, 丹麦语, 迪维希语, 迪乌拉语, 荷兰语, 英语, 厄尔兹亚语, 世界语, 爱沙尼亚语, 芬兰语, 法语, 弗里西亚语, 加利西亚语, 格鲁吉亚语, 德语, 希腊语, 瓜拉尼语, 哈卡钦语, 豪萨语, 希尔马里语, 印地语, 匈牙利语, 冰岛语, 伊博语, 印度尼西亚语, 因特林瓜语, 爱尔兰语, 意大利语, 日语, 卡拜尔语, 哈萨克语, 基尼亚尔瓦语, 韩语, 库尔德语(库尔曼吉), 吉尔吉斯语, 老挝语, 拉脱维亚语, 立陶宛语, 卢干达语, 马其顿语, 马拉雅拉姆语, 马耳他语, 马拉地语, 草原马里语, 莫克沙语, 蒙古语, 尼泊尔语, 挪威尼诺斯克语, 奥克西坦语, 奥里亚语, 普什图语, 波斯语, 波兰语, 葡萄牙语, 旁遮普语, 昌卡语, 罗马尼亚语, 罗曼什语(苏尔西尔文), 罗曼什语(瓦拉德语), 俄语, 萨哈语, 桑塔利语(奥尔奇基语), 萨拉伊基语, 撒丁语, 塞尔维亚语, 斯洛伐克语, 斯洛文尼亚语, 索布语, 上索布语, 西班牙语, 斯瓦希里语, 瑞典语, 台湾闽南语, 塔马齐格特语, 泰米尔语, 鞑靼语, 泰语, 提格里尼亚语, 提格雷语, 托克皮辛语, 土耳其语, 土库曼语, 特威语, 乌克兰语, 乌尔都语, 维吾尔语, 乌兹别克语, 越南语, 沃蒂克语, 威尔士语, 约鲁巴语
如何使用
可以使用datasets库在纯Python中加载和预处理数据集。通过调用load_dataset函数,可以将数据集下载并准备到本地驱动器。
例如,下载葡萄牙语配置: python from datasets import load_dataset
cv_18 = load_dataset("fsicoli/common_voice_18_0", "pt", split="train")
也可以通过添加streaming=True参数在流模式下加载数据集: python from datasets import load_dataset
cv_18 = load_dataset("fsicoli/common_voice_18_0", "pt", split="train", streaming=True)
print(next(iter(cv_18)))
数据集结构
一个典型的数据点包括音频文件的路径及其句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、性别、locale和segment。
许可信息
公共领域,CC-0
引用信息
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }




