mariosasko/test_push_split
收藏Hugging Face2023-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mariosasko/test_push_split
下载链接
链接失效反馈官方服务:
资源简介:
Common Voice数据集由独特的MP3和相应的文本文件组成,包含9283小时的录音,其中7335小时在60种语言中经过验证。数据集还包括年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。数据集支持多种语言,并且不断添加新的语音和语言。数据集的结构包括音频文件路径、句子、投票数、年龄、性别、口音等字段。此外,还提供了数据预处理的具体步骤和代码示例。
Common Voice数据集由独特的MP3和相应的文本文件组成,包含9283小时的录音,其中7335小时在60种语言中经过验证。数据集还包括年龄、性别和口音等人口统计元数据,有助于提高语音识别引擎的准确性。数据集支持多种语言,并且不断添加新的语音和语言。数据集的结构包括音频文件路径、句子、投票数、年龄、性别、口音等字段。此外,还提供了数据预处理的具体步骤和代码示例。
提供机构:
mariosasko
原始信息汇总
数据集概述:Common Voice Corpus 6.1
数据集描述
数据集摘要
- 数据集名称: Common Voice Corpus 6.1
- 数据类型: 包含MP3音频文件及其对应的文本文件。
- 数据量: 总计9283小时录音,其中7335小时已验证。
- 语言多样性: 支持60种语言。
- 数据内容: 除了音频和文本,还包含年龄、性别、口音等人口统计元数据。
支持的任务和排行榜
- 任务类型: 自动语音识别(Automatic Speech Recognition, ASR)。
- 排行榜: 结果可通过🤗 Speech Bench查看。
语言支持
- 语言列表: 包括Abkhaz, Arabic, Assamese等60种语言。
数据集结构
数据实例
- 组成: 每个数据点包括音频文件路径和对应的句子文本。
- 额外字段: 包括口音、年龄、客户端ID、投票数、性别、地区和段落信息。
数据字段
- client_id: 客户端(声音)的唯一标识。
- path: 音频文件的路径。
- audio: 包含音频文件路径、解码后的音频数组和采样率。
- sentence: 用户被提示朗读的句子。
- up_votes/down_votes: 音频文件收到的赞成票和反对票数量。
- age/gender/accent/locale: 说话者的年龄、性别、口音和地区。
数据分割
- 分割类型: 包括开发集、训练集、测试集、验证集、无效集、报告集和其他未审查数据。
数据集创建
数据集来源
- 来源: 扩展自Common Voice数据集。
- 许可证: CC0-1.0。
注释和语言创建
- 注释创建者: 众包。
- 语言创建者: 众包。
个人和敏感信息
- 信息处理: 用户同意不尝试确定Common Voice数据集中说话者的身份。
使用数据的考虑
社会影响
- 数据使用: 用户同意不尝试确定说话者的身份,以保护个人隐私。
偏见讨论
- 信息缺失: 需要更多信息来讨论数据集中的潜在偏见。
其他已知限制
- 信息缺失: 需要更多信息来了解数据集的其他已知限制。
附加信息
许可证信息
- 许可证: 公共领域,CC0。
引用信息
- 引用格式: 提供了一个标准的引用格式,用于学术引用。



