guoqiang/cuge

Name: guoqiang/cuge
Creator: guoqiang
Published: 2022-01-25 05:30:29
License: 暂无描述

Hugging Face2022-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/guoqiang/cuge

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice数据集由独特的MP3音频文件和相应的文本文件组成。数据集中的9,283小时录音还包括年龄、性别和口音等人口统计元数据，这些数据有助于提高语音识别引擎的准确性。目前，数据集包含60种语言的7,335小时已验证录音，并且不断添加更多语音和语言。数据集的数据点包括音频文件路径、句子、口音、年龄、客户端ID、投票数、性别、地区和片段等信息。数据集被分为开发集、训练集、测试集、已验证数据、无效数据、已报告数据和其他数据。使用该数据集时，用户同意不尝试识别说话者的身份。

提供机构：

guoqiang

原始信息汇总

数据集概述

数据集摘要

Common Voice 数据集包含独特的 MP3 文件及其对应的文本文件。数据集中有 9,283 小时的录音，其中许多录音还包括年龄、性别和口音等人口统计元数据，有助于提高语音识别引擎的准确性。

目前，数据集包含 7,335 小时的已验证录音，涵盖 60 种语言，并且不断增加新的语音和语言。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径（称为 path）及其对应的句子。其他字段包括口音、年龄、客户端 ID、赞同票、反对票、性别、地区和段落。

示例数据点： json { "accent": "netherlands", "age": "fourties", "client_id": "bbbcb732e0f422150c30ff3654bbab572e2a617da107bca22ff8b89ab2e4f124d03b6a92c48322862f60bd0179ae07baf0f9b4f9c4e11d581e0cec70f703ba54", "down_votes": 0, "gender": "male", "locale": "nl", "path": "nl/clips/common_voice_nl_23522441.mp3", "segment": "", "sentence": "Ik vind dat een dubieuze procedure.", "up_votes": 2, "audio": { "path": "nl/clips/common_voice_nl_23522441.mp3", "array": [array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32)], "sampling_rate": 48000 } }

数据字段

client_id: 录音客户端（语音）的 ID
path: 音频文件的路径
audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典
sentence: 用户被提示说的句子
up_votes: 音频文件收到的赞同票数
down_votes: 音频文件收到的反对票数
age: 说话者的年龄
gender: 说话者的性别
accent: 说话者的口音
locale: 说话者的地区
segment: 通常为空字段

数据分割

语音材料被细分为用于开发（dev）、训练（train）、测试（test）、已验证（validated）、无效（invalidated）、报告（reported）和其他（other）的部分。

已验证数据：经过评审员验证并收到高质量数据的赞同票
无效数据：经过评审员验证并收到低质量数据的反对票
报告数据：因不同原因被报告的数据
其他数据：尚未被评审的数据
dev、test、train：经过评审，被认定为高质量并被分割为 dev、test 和 train 的数据

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者

[需要更多信息]

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

使用数据时的考虑

数据集的社会影响

数据集包含在线捐赠语音的人。您同意不尝试确定 Common Voice 数据集中说话者的身份。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

公共领域，CC-0

引用信息

bibtex @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+

优质数据集

54 个

任务类型

进入经典数据集