fsicoli/common_voice_17_0
收藏数据集概述
基本信息
- 数据集名称: Common Voice Corpus 17.0
- 许可证: CC0-1.0
- 语言: 包含多种语言,如Abkhaz, Albanian, Amharic等
- 任务类别: 自动语音识别
- 大小类别: 100B<n<1T
- 标签: Mozilla, Foundation
数据集结构
- 数据实例: 每个数据点包括音频文件路径及其对应的句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、性别、地区和段落。
使用方法
-
加载数据集: 使用
load_dataset函数下载并准备数据集。例如,加载葡萄牙语数据集的代码如下: python from datasets import load_dataset cv_17 = load_dataset("fsicoli/common_voice_17_0", "pt", split="train") -
流式加载: 通过设置
streaming=True,可以实现数据集的流式加载。 python cv_17 = load_dataset("fsicoli/common_voice_17_0", "pt", split="train", streaming=True) -
创建PyTorch数据加载器: 支持本地和流式数据集的PyTorch数据加载器创建。
许可证信息
- 许可证: 公共领域,CC-0
引用信息
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }




