five

hezarai/common-voice-13-fa

收藏
Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hezarai/common-voice-13-fa
下载链接
链接失效反馈
官方服务:
资源简介:
CommonVoice 13 (Persian)数据集是CommonVoice 13数据集的波斯语部分,用于自动语音识别任务。数据集包含波斯语的音频文件及其对应的文本句子,以及用户投票、年龄、性别、口音、地区、片段和变体等信息。数据集分为训练集、验证集和测试集,分别包含28024、10440和10440个样本。音频文件的采样率为48000 Hz。

CommonVoice 13 (Persian)数据集是CommonVoice 13数据集的波斯语部分,用于自动语音识别任务。数据集包含波斯语的音频文件及其对应的文本句子,以及用户投票、年龄、性别、口音、地区、片段和变体等信息。数据集分为训练集、验证集和测试集,分别包含28024、10440和10440个样本。音频文件的采样率为48000 Hz。
提供机构:
hezarai
原始信息汇总

CommonVoice 13 (Persian) 数据集概述

基本信息

  • 语言: 波斯语 (fa)
  • 数据量: 10K<n<100K
  • 任务类别: 自动语音识别 (automatic-speech-recognition)
  • 标签: hezar

数据集特征

  • client_id: 字符串类型
  • path: 字符串类型
  • audio: 音频类型,采样率为48000
  • sentence: 字符串类型
  • up_votes: 整数类型
  • down_votes: 整数类型
  • age: 字符串类型
  • gender: 字符串类型
  • accent: 字符串类型
  • locale: 字符串类型
  • segment: 字符串类型
  • variant: 字符串类型

数据集分割

  • 训练集 (train):
    • 字节数: 678881126.0
    • 样本数: 28024
  • 验证集 (validation):
    • 字节数: 316339631.0
    • 样本数: 10440
  • 测试集 (test):
    • 字节数: 403122439.0
    • 样本数: 10440

数据集大小

  • 下载大小: 1343358221
  • 数据集大小: 1398343196.0

配置

  • 配置名称: default
  • 数据文件:
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作