five

Seon25/common_voice_16_0_

收藏
Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Seon25/common_voice_16_0_
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice Corpus 16是一个多语言的语音数据集,包含多种语言的MP3音频文件和相应的文本文件。数据集由众包方式创建,包含30328小时的录音,其中19673小时已经过验证。数据集还包含年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。数据集支持多种任务,如自动语音识别(ASR),并且可以通过Hugging Face的`datasets`库进行加载和预处理。

Common Voice Corpus 16是一个多语言的语音数据集,包含多种语言的MP3音频文件和相应的文本文件。数据集由众包方式创建,包含30328小时的录音,其中19673小时已经过验证。数据集还包含年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。数据集支持多种任务,如自动语音识别(ASR),并且可以通过Hugging Face的`datasets`库进行加载和预处理。
提供机构:
Seon25
原始信息汇总

数据集概述

数据集名称: Common Voice Corpus 16

数据集概要: Common Voice数据集包含独特的MP3文件及其对应的文本文件。数据集中包含30,328小时的录音,其中许多记录还包含年龄、性别和口音等人口统计元数据,这些信息有助于提高语音识别引擎的准确性。目前,该数据集包含19,673小时的验证数据,涵盖120种语言。

支持的语言: 数据集支持多种语言,包括但不限于Abkhaz, Afrikaans, Albanian, Amharic, Arabic等。具体语言列表请参考Languages部分。

许可证: 数据集采用CC0-1.0许可证。

多语言性: 数据集是多语言的,支持多种语言。

数据集结构

数据实例: 每个数据点包含音频文件的路径和对应的句子。其他字段包括口音、年龄、客户端ID、赞成票、反对票、性别、地区和段落。

数据字段:

  • client_id (string): 记录的客户端(声音)ID。
  • path (string): 音频文件的路径。
  • audio (dict): 包含下载的音频文件路径、解码的音频数组和采样率。
  • sentence (string): 用户被提示朗读的句子。
  • up_votes (int64): 音频文件从审阅者那里获得的赞成票数。
  • down_votes (int64): 音频文件从审阅者那里获得的反对票数。
  • age (string): 说话者的年龄。
  • gender (string): 说话者的性别。
  • accent (string): 说话者的口音。
  • locale (string): 说话者的地区。
  • segment (string): 通常为空字段。

数据分割: 数据被分为dev、train、test、validated、invalidated、reported和其他部分。validated数据是经过审阅者验证并获得赞成票的高质量数据。invalidated数据是审阅者认为质量低下的数据。reported数据是因各种原因被报告的数据。其他数据是尚未被审阅的数据。dev、test、train是经过审查并被认为是高质量的数据,被分为dev、test和train。

数据集创建

许可证信息: 数据集采用公共领域许可证,CC-0

引用信息:

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作