hezarai/common-voice-13-fa
收藏Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hezarai/common-voice-13-fa
下载链接
链接失效反馈官方服务:
资源简介:
CommonVoice 13 (Persian)数据集是CommonVoice 13数据集的波斯语部分,用于自动语音识别任务。数据集包含波斯语的音频文件及其对应的文本句子,以及用户投票、年龄、性别、口音、地区、片段和变体等信息。数据集分为训练集、验证集和测试集,分别包含28024、10440和10440个样本。音频文件的采样率为48000 Hz。
CommonVoice 13 (Persian)数据集是CommonVoice 13数据集的波斯语部分,用于自动语音识别任务。数据集包含波斯语的音频文件及其对应的文本句子,以及用户投票、年龄、性别、口音、地区、片段和变体等信息。数据集分为训练集、验证集和测试集,分别包含28024、10440和10440个样本。音频文件的采样率为48000 Hz。
提供机构:
hezarai
原始信息汇总
CommonVoice 13 (Persian) 数据集概述
基本信息
- 语言: 波斯语 (fa)
- 数据量: 10K<n<100K
- 任务类别: 自动语音识别 (automatic-speech-recognition)
- 标签: hezar
数据集特征
- client_id: 字符串类型
- path: 字符串类型
- audio: 音频类型,采样率为48000
- sentence: 字符串类型
- up_votes: 整数类型
- down_votes: 整数类型
- age: 字符串类型
- gender: 字符串类型
- accent: 字符串类型
- locale: 字符串类型
- segment: 字符串类型
- variant: 字符串类型
数据集分割
- 训练集 (train):
- 字节数: 678881126.0
- 样本数: 28024
- 验证集 (validation):
- 字节数: 316339631.0
- 样本数: 10440
- 测试集 (test):
- 字节数: 403122439.0
- 样本数: 10440
数据集大小
- 下载大小: 1343358221
- 数据集大小: 1398343196.0
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*



