taqwa92/cm.trial
收藏数据集概述:Common Voice Corpus 11.0
数据集描述
数据集摘要
Common Voice Corpus 11.0 是一个包含多种语言的语音数据集,主要用于自动语音识别(ASR)任务。该数据集包含超过24,210小时的录音,涵盖100种语言,每个录音文件都附有相应的文本文件。此外,数据集还包含说话者的年龄、性别和口音等人口统计学元数据,以帮助提高语音识别引擎的准确性。
支持的任务和排行榜
该数据集支持的任务主要是自动语音识别。相关模型训练结果可通过🤗 Speech Bench查看。
语言
数据集涵盖多种语言,包括但不限于:Abkhaz, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Kurmanji Kurdish, Kyrgyz, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Odia, Persian, Polish, Portuguese, Punjabi, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh。
数据集结构
数据实例
每个数据实例包括音频文件的路径和对应的句子。此外,还包括说话者的口音、年龄、客户端ID、点赞数、点踩数、性别、地区和段落信息。
数据字段
client_id(string): 录音客户端的ID。path(string): 音频文件的路径。audio(dict): 包含音频文件路径、解码后的音频数组和采样率。sentence(string): 用户被提示朗读的句子。up_votes(int64): 音频文件获得的点赞数。down_votes(int64): 音频文件获得的点踩数。age(string): 说话者的年龄。gender(string): 说话者的性别。accent(string): 说话者的口音。locale(string): 说话者的地区。segment(string): 通常为空字段。
数据分割
数据集被分为多个部分,包括开发集、训练集、测试集、验证集、无效集、报告集和其他未分类数据。
数据集创建
来源数据
数据集的来源是通过众包方式收集的语音数据。
许可信息
数据集使用CC-0许可,属于公共领域。
引用信息
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }



