Common Voice Dataset
收藏Common Voice Dataset 概述
数据集描述
- 来源:Common Voice社区通过web平台贡献。
- 更新频率:约每六个月发布新数据集。
- 数据内容:所有语音贡献,无论验证状态,均包含在数据集中。仅在用户请求时移除剪辑。
- 数据结构:每个
.tar.gz文件包含特定语言的音频文件和多个.tsv文件,记录文件列表、注释、client_id、验证数据及人口统计信息。
数据集文件结构
[lang].tar.gz/ ├── clips/ │ ├── *.mp3 files |__ dev.tsv |__ invalidated.tsv |__ other.tsv |__ test.tsv |__ train.tsv |__ validated.tsv |__ reported.tsv (as of Corpus 5.0)
数据集字段
- client_id:用户哈希UUID。
- path:音频文件的相对路径。
- text:音频的假设转录。
- up_votes:认为音频匹配文本的人数。
- down_votes:认为音频不匹配文本的人数。
- age:说话者年龄。
- gender:说话者性别。
- accent:说话者口音。
- segment:属于自定义数据集段的句子。
数据集使用
- 机器学习应用:使用Mozilla Corpora Creator工具处理元数据,生成测试、训练和开发集。
- 数据集访问:建议使用
curl命令行工具下载大型文件,以支持断点续传。
引用信息
-
文献:Ardila, R. et al. (2020) "Common Voice: A Massively-Multilingual Speech Corpus". Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020).
-
BibTeX:
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }




