mariosasko/test_push_split

Name: mariosasko/test_push_split
Creator: mariosasko
Published: 2023-06-18 16:09:06
License: 暂无描述

Hugging Face2023-06-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mariosasko/test_push_split

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice数据集由独特的MP3和相应的文本文件组成，包含9283小时的录音，其中7335小时在60种语言中经过验证。数据集还包括年龄、性别和口音等人口统计元数据，有助于提高语音识别引擎的准确性。数据集支持多种语言，并且不断添加新的语音和语言。数据集的结构包括音频文件路径、句子、投票数、年龄、性别、口音等字段。此外，还提供了数据预处理的具体步骤和代码示例。

提供机构：

mariosasko

原始信息汇总

数据集概述：Common Voice Corpus 6.1

数据集描述

数据集摘要

数据集名称： Common Voice Corpus 6.1
数据类型： 包含MP3音频文件及其对应的文本文件。
数据量： 总计9283小时录音，其中7335小时已验证。
语言多样性： 支持60种语言。
数据内容： 除了音频和文本，还包含年龄、性别、口音等人口统计元数据。

支持的任务和排行榜

任务类型： 自动语音识别（Automatic Speech Recognition, ASR）。
排行榜： 结果可通过🤗 Speech Bench查看。

语言支持

语言列表： 包括Abkhaz, Arabic, Assamese等60种语言。

数据集结构

数据实例

组成： 每个数据点包括音频文件路径和对应的句子文本。
额外字段： 包括口音、年龄、客户端ID、投票数、性别、地区和段落信息。

数据字段

client_id： 客户端（声音）的唯一标识。
path： 音频文件的路径。
audio： 包含音频文件路径、解码后的音频数组和采样率。
sentence： 用户被提示朗读的句子。
up_votes/down_votes： 音频文件收到的赞成票和反对票数量。
age/gender/accent/locale： 说话者的年龄、性别、口音和地区。

数据分割

分割类型： 包括开发集、训练集、测试集、验证集、无效集、报告集和其他未审查数据。

数据集创建

数据集来源

来源： 扩展自Common Voice数据集。
许可证： CC0-1.0。

注释和语言创建

注释创建者： 众包。
语言创建者： 众包。

个人和敏感信息

信息处理： 用户同意不尝试确定Common Voice数据集中说话者的身份。

使用数据的考虑

社会影响

数据使用： 用户同意不尝试确定说话者的身份，以保护个人隐私。

偏见讨论

信息缺失： 需要更多信息来讨论数据集中的潜在偏见。

其他已知限制

信息缺失： 需要更多信息来了解数据集的其他已知限制。

附加信息

许可证信息

许可证： 公共领域，CC0。

引用信息

引用格式： 提供了一个标准的引用格式，用于学术引用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集