Seon25/common_voice_16_0_
收藏数据集概述
数据集名称: Common Voice Corpus 16
数据集概要: Common Voice数据集包含独特的MP3文件及其对应的文本文件。数据集中包含30,328小时的录音,其中许多记录还包含年龄、性别和口音等人口统计元数据,这些信息有助于提高语音识别引擎的准确性。目前,该数据集包含19,673小时的验证数据,涵盖120种语言。
支持的语言: 数据集支持多种语言,包括但不限于Abkhaz, Afrikaans, Albanian, Amharic, Arabic等。具体语言列表请参考Languages部分。
许可证: 数据集采用CC0-1.0许可证。
多语言性: 数据集是多语言的,支持多种语言。
数据集结构
数据实例: 每个数据点包含音频文件的路径和对应的句子。其他字段包括口音、年龄、客户端ID、赞成票、反对票、性别、地区和段落。
数据字段:
client_id(string): 记录的客户端(声音)ID。path(string): 音频文件的路径。audio(dict): 包含下载的音频文件路径、解码的音频数组和采样率。sentence(string): 用户被提示朗读的句子。up_votes(int64): 音频文件从审阅者那里获得的赞成票数。down_votes(int64): 音频文件从审阅者那里获得的反对票数。age(string): 说话者的年龄。gender(string): 说话者的性别。accent(string): 说话者的口音。locale(string): 说话者的地区。segment(string): 通常为空字段。
数据分割: 数据被分为dev、train、test、validated、invalidated、reported和其他部分。validated数据是经过审阅者验证并获得赞成票的高质量数据。invalidated数据是审阅者认为质量低下的数据。reported数据是因各种原因被报告的数据。其他数据是尚未被审阅的数据。dev、test、train是经过审查并被认为是高质量的数据,被分为dev、test和train。
数据集创建
许可证信息: 数据集采用公共领域许可证,CC-0。
引用信息:
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }



