hezarai/common-voice-13-fa

Name: hezarai/common-voice-13-fa
Creator: hezarai
Published: 2024-05-07 08:20:46
License: 暂无描述

Hugging Face2024-05-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hezarai/common-voice-13-fa

下载链接

链接失效反馈

官方服务：

资源简介：

CommonVoice 13 (Persian)数据集是CommonVoice 13数据集的波斯语部分，用于自动语音识别任务。数据集包含波斯语的音频文件及其对应的文本句子，以及用户投票、年龄、性别、口音、地区、片段和变体等信息。数据集分为训练集、验证集和测试集，分别包含28024、10440和10440个样本。音频文件的采样率为48000 Hz。

提供机构：

hezarai

原始信息汇总

CommonVoice 13 (Persian) 数据集概述

基本信息

语言: 波斯语 (fa)
数据量: 10K<n<100K
任务类别: 自动语音识别 (automatic-speech-recognition)
标签: hezar

数据集特征

client_id: 字符串类型
path: 字符串类型
audio: 音频类型，采样率为48000
sentence: 字符串类型
up_votes: 整数类型
down_votes: 整数类型
age: 字符串类型
gender: 字符串类型
accent: 字符串类型
locale: 字符串类型
segment: 字符串类型
variant: 字符串类型

数据集分割

训练集 (train):
- 字节数: 678881126.0
- 样本数: 28024
验证集 (validation):
- 字节数: 316339631.0
- 样本数: 10440
测试集 (test):
- 字节数: 403122439.0
- 样本数: 10440

数据集大小

下载大小: 1343358221
数据集大小: 1398343196.0

配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集