five

taqwa92/cm.trial

收藏
Hugging Face2023-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taqwa92/cm.trial
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice数据集由独特的MP3音频文件和对应的文本文件组成。数据集中的许多录音还包括了说话者的年龄、性别和口音等元数据,这些信息有助于提高语音识别引擎的准确性。目前,数据集包含了100种语言的16413小时已验证的语音数据,并且不断有新的语音和语言被添加进来。数据集支持自动语音识别任务,并且提供了多种语言的语音数据。
提供机构:
taqwa92
原始信息汇总

数据集概述:Common Voice Corpus 11.0

数据集描述

数据集摘要

Common Voice Corpus 11.0 是一个包含多种语言的语音数据集,主要用于自动语音识别(ASR)任务。该数据集包含超过24,210小时的录音,涵盖100种语言,每个录音文件都附有相应的文本文件。此外,数据集还包含说话者的年龄、性别和口音等人口统计学元数据,以帮助提高语音识别引擎的准确性。

支持的任务和排行榜

该数据集支持的任务主要是自动语音识别。相关模型训练结果可通过🤗 Speech Bench查看。

语言

数据集涵盖多种语言,包括但不限于:Abkhaz, Arabic, Armenian, Assamese, Asturian, Azerbaijani, Basaa, Bashkir, Basque, Belarusian, Bengali, Breton, Bulgarian, Cantonese, Catalan, Central Kurdish, Chinese (China), Chinese (Hong Kong), Chinese (Taiwan), Chuvash, Czech, Danish, Dhivehi, Dutch, English, Erzya, Esperanto, Estonian, Finnish, French, Frisian, Galician, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Hill Mari, Hindi, Hungarian, Igbo, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kazakh, Kinyarwanda, Kurmanji Kurdish, Kyrgyz, Latvian, Lithuanian, Luganda, Macedonian, Malayalam, Maltese, Marathi, Meadow Mari, Moksha, Mongolian, Nepali, Norwegian Nynorsk, Odia, Persian, Polish, Portuguese, Punjabi, Romanian, Romansh Sursilvan, Romansh Vallader, Russian, Sakha, Santali (Ol Chiki), Saraiki, Sardinian, Serbian, Slovak, Slovenian, Sorbian, Upper, Spanish, Swahili, Swedish, Taiwanese (Minnan), Tamil, Tatar, Thai, Tigre, Tigrinya, Toki Pona, Turkish, Twi, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Votic, Welsh。

数据集结构

数据实例

每个数据实例包括音频文件的路径和对应的句子。此外,还包括说话者的口音、年龄、客户端ID、点赞数、点踩数、性别、地区和段落信息。

数据字段

  • client_id (string): 录音客户端的ID。
  • path (string): 音频文件的路径。
  • audio (dict): 包含音频文件路径、解码后的音频数组和采样率。
  • sentence (string): 用户被提示朗读的句子。
  • up_votes (int64): 音频文件获得的点赞数。
  • down_votes (int64): 音频文件获得的点踩数。
  • age (string): 说话者的年龄。
  • gender (string): 说话者的性别。
  • accent (string): 说话者的口音。
  • locale (string): 说话者的地区。
  • segment (string): 通常为空字段。

数据分割

数据集被分为多个部分,包括开发集、训练集、测试集、验证集、无效集、报告集和其他未分类数据。

数据集创建

来源数据

数据集的来源是通过众包方式收集的语音数据。

许可信息

数据集使用CC-0许可,属于公共领域。

引用信息

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作