five

mariosasko/test_push_split

收藏
Hugging Face2023-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mariosasko/test_push_split
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice数据集由独特的MP3和相应的文本文件组成,包含9283小时的录音,其中7335小时在60种语言中经过验证。数据集还包括年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。数据集支持多种语言,并且不断添加新的语音和语言。数据集的结构包括音频文件路径、句子、投票数、年龄、性别、口音等字段。此外,还提供了数据预处理的具体步骤和代码示例。

Common Voice数据集由独特的MP3和相应的文本文件组成,包含9283小时的录音,其中7335小时在60种语言中经过验证。数据集还包括年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。数据集支持多种语言,并且不断添加新的语音和语言。数据集的结构包括音频文件路径、句子、投票数、年龄、性别、口音等字段。此外,还提供了数据预处理的具体步骤和代码示例。
提供机构:
mariosasko
原始信息汇总

数据集概述:Common Voice Corpus 6.1

数据集描述

数据集摘要

  • 数据集名称: Common Voice Corpus 6.1
  • 数据类型: 包含MP3音频文件及其对应的文本文件。
  • 数据量: 总计9283小时录音,其中7335小时已验证。
  • 语言多样性: 支持60种语言。
  • 数据内容: 除了音频和文本,还包含年龄、性别、口音等人口统计元数据。

支持的任务和排行榜

  • 任务类型: 自动语音识别(Automatic Speech Recognition, ASR)。
  • 排行榜: 结果可通过🤗 Speech Bench查看。

语言支持

  • 语言列表: 包括Abkhaz, Arabic, Assamese等60种语言。

数据集结构

数据实例

  • 组成: 每个数据点包括音频文件路径和对应的句子文本。
  • 额外字段: 包括口音、年龄、客户端ID、投票数、性别、地区和段落信息。

数据字段

  • client_id: 客户端(声音)的唯一标识。
  • path: 音频文件的路径。
  • audio: 包含音频文件路径、解码后的音频数组和采样率。
  • sentence: 用户被提示朗读的句子。
  • up_votes/down_votes: 音频文件收到的赞成票和反对票数量。
  • age/gender/accent/locale: 说话者的年龄、性别、口音和地区。

数据分割

  • 分割类型: 包括开发集、训练集、测试集、验证集、无效集、报告集和其他未审查数据。

数据集创建

数据集来源

  • 来源: 扩展自Common Voice数据集。
  • 许可证: CC0-1.0。

注释和语言创建

  • 注释创建者: 众包。
  • 语言创建者: 众包。

个人和敏感信息

  • 信息处理: 用户同意不尝试确定Common Voice数据集中说话者的身份。

使用数据的考虑

社会影响

  • 数据使用: 用户同意不尝试确定说话者的身份,以保护个人隐私。

偏见讨论

  • 信息缺失: 需要更多信息来讨论数据集中的潜在偏见。

其他已知限制

  • 信息缺失: 需要更多信息来了解数据集的其他已知限制。

附加信息

许可证信息

  • 许可证: 公共领域,CC0。

引用信息

  • 引用格式: 提供了一个标准的引用格式,用于学术引用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作