guoqiang/cuge
收藏数据集概述
数据集摘要
Common Voice 数据集包含独特的 MP3 文件及其对应的文本文件。数据集中有 9,283 小时的录音,其中许多录音还包括年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。
目前,数据集包含 7,335 小时的已验证录音,涵盖 60 种语言,并且不断增加新的语音和语言。
支持的任务和排行榜
[需要更多信息]
语言
- 英语
数据集结构
数据实例
一个典型的数据点包括音频文件的路径(称为 path)及其对应的句子。其他字段包括口音、年龄、客户端 ID、赞同票、反对票、性别、地区和段落。
示例数据点: json { "accent": "netherlands", "age": "fourties", "client_id": "bbbcb732e0f422150c30ff3654bbab572e2a617da107bca22ff8b89ab2e4f124d03b6a92c48322862f60bd0179ae07baf0f9b4f9c4e11d581e0cec70f703ba54", "down_votes": 0, "gender": "male", "locale": "nl", "path": "nl/clips/common_voice_nl_23522441.mp3", "segment": "", "sentence": "Ik vind dat een dubieuze procedure.", "up_votes": 2, "audio": { "path": "nl/clips/common_voice_nl_23522441.mp3", "array": [array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32)], "sampling_rate": 48000 } }
数据字段
client_id: 录音客户端(语音)的 IDpath: 音频文件的路径audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典sentence: 用户被提示说的句子up_votes: 音频文件收到的赞同票数down_votes: 音频文件收到的反对票数age: 说话者的年龄gender: 说话者的性别accent: 说话者的口音locale: 说话者的地区segment: 通常为空字段
数据分割
语音材料被细分为用于开发(dev)、训练(train)、测试(test)、已验证(validated)、无效(invalidated)、报告(reported)和其他(other)的部分。
- 已验证数据:经过评审员验证并收到高质量数据的赞同票
- 无效数据:经过评审员验证并收到低质量数据的反对票
- 报告数据:因不同原因被报告的数据
- 其他数据:尚未被评审的数据
- dev、test、train:经过评审,被认定为高质量并被分割为 dev、test 和 train 的数据
数据集创建
策划理由
[需要更多信息]
源数据
初始数据收集和规范化
[需要更多信息]
源语言生产者
[需要更多信息]
注释
注释过程
[需要更多信息]
注释者
[需要更多信息]
个人和敏感信息
数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。
使用数据时的考虑
数据集的社会影响
数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。
偏见讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策展人
[需要更多信息]
许可信息
公共领域,CC-0
引用信息
bibtex @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }



