five

guoqiang/cuge

收藏
Hugging Face2022-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/guoqiang/cuge
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice数据集由独特的MP3音频文件和相应的文本文件组成。数据集中的9,283小时录音还包括年龄、性别和口音等人口统计元数据,这些数据有助于提高语音识别引擎的准确性。目前,数据集包含60种语言的7,335小时已验证录音,并且不断添加更多语音和语言。数据集的数据点包括音频文件路径、句子、口音、年龄、客户端ID、投票数、性别、地区和片段等信息。数据集被分为开发集、训练集、测试集、已验证数据、无效数据、已报告数据和其他数据。使用该数据集时,用户同意不尝试识别说话者的身份。
提供机构:
guoqiang
原始信息汇总

数据集概述

数据集摘要

Common Voice 数据集包含独特的 MP3 文件及其对应的文本文件。数据集中有 9,283 小时的录音,其中许多录音还包括年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。

目前,数据集包含 7,335 小时的已验证录音,涵盖 60 种语言,并且不断增加新的语音和语言。

支持的任务和排行榜

[需要更多信息]

语言

  • 英语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径(称为 path)及其对应的句子。其他字段包括口音、年龄、客户端 ID、赞同票、反对票、性别、地区和段落。

示例数据点: json { "accent": "netherlands", "age": "fourties", "client_id": "bbbcb732e0f422150c30ff3654bbab572e2a617da107bca22ff8b89ab2e4f124d03b6a92c48322862f60bd0179ae07baf0f9b4f9c4e11d581e0cec70f703ba54", "down_votes": 0, "gender": "male", "locale": "nl", "path": "nl/clips/common_voice_nl_23522441.mp3", "segment": "", "sentence": "Ik vind dat een dubieuze procedure.", "up_votes": 2, "audio": { "path": "nl/clips/common_voice_nl_23522441.mp3", "array": [array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32)], "sampling_rate": 48000 } }

数据字段

  • client_id: 录音客户端(语音)的 ID
  • path: 音频文件的路径
  • audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典
  • sentence: 用户被提示说的句子
  • up_votes: 音频文件收到的赞同票数
  • down_votes: 音频文件收到的反对票数
  • age: 说话者的年龄
  • gender: 说话者的性别
  • accent: 说话者的口音
  • locale: 说话者的地区
  • segment: 通常为空字段

数据分割

语音材料被细分为用于开发(dev)、训练(train)、测试(test)、已验证(validated)、无效(invalidated)、报告(reported)和其他(other)的部分。

  • 已验证数据:经过评审员验证并收到高质量数据的赞同票
  • 无效数据:经过评审员验证并收到低质量数据的反对票
  • 报告数据:因不同原因被报告的数据
  • 其他数据:尚未被评审的数据
  • dev、test、train:经过评审,被认定为高质量并被分割为 dev、test 和 train 的数据

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者

[需要更多信息]

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

使用数据时的考虑

数据集的社会影响

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

公共领域,CC-0

引用信息

bibtex @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作