Seon25/common_voice_16_0_

Name: Seon25/common_voice_16_0_
Creator: Seon25
Published: 2024-06-19 10:19:11
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Seon25/common_voice_16_0_

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice Corpus 16是一个多语言的语音数据集，包含多种语言的MP3音频文件和相应的文本文件。数据集由众包方式创建，包含30328小时的录音，其中19673小时已经过验证。数据集还包含年龄、性别和口音等人口统计元数据，有助于提高语音识别引擎的准确性。数据集支持多种任务，如自动语音识别（ASR），并且可以通过Hugging Face的`datasets`库进行加载和预处理。

提供机构：

Seon25

原始信息汇总

数据集概述

数据集名称: Common Voice Corpus 16

数据集概要: Common Voice数据集包含独特的MP3文件及其对应的文本文件。数据集中包含30,328小时的录音，其中许多记录还包含年龄、性别和口音等人口统计元数据，这些信息有助于提高语音识别引擎的准确性。目前，该数据集包含19,673小时的验证数据，涵盖120种语言。

支持的语言: 数据集支持多种语言，包括但不限于Abkhaz, Afrikaans, Albanian, Amharic, Arabic等。具体语言列表请参考Languages部分。

许可证: 数据集采用CC0-1.0许可证。

多语言性: 数据集是多语言的，支持多种语言。

数据集结构

数据实例: 每个数据点包含音频文件的路径和对应的句子。其他字段包括口音、年龄、客户端ID、赞成票、反对票、性别、地区和段落。

数据字段:

client_id (string): 记录的客户端（声音）ID。
path (string): 音频文件的路径。
audio (dict): 包含下载的音频文件路径、解码的音频数组和采样率。
sentence (string): 用户被提示朗读的句子。
up_votes (int64): 音频文件从审阅者那里获得的赞成票数。
down_votes (int64): 音频文件从审阅者那里获得的反对票数。
age (string): 说话者的年龄。
gender (string): 说话者的性别。
accent (string): 说话者的口音。
locale (string): 说话者的地区。
segment (string): 通常为空字段。

数据分割: 数据被分为dev、train、test、validated、invalidated、reported和其他部分。validated数据是经过审阅者验证并获得赞成票的高质量数据。invalidated数据是审阅者认为质量低下的数据。reported数据是因各种原因被报告的数据。其他数据是尚未被审阅的数据。dev、test、train是经过审查并被认为是高质量的数据，被分为dev、test和train。

数据集创建

许可证信息: 数据集采用公共领域许可证，CC-0。

引用信息:

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+

优质数据集

54 个

任务类型

进入经典数据集