five

satani/common_voice_13_0_hi_pseudo_labelled

收藏
Hugging Face2023-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/satani/common_voice_13_0_hi_pseudo_labelled
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:hi和hi_in。hi配置包含音频数据、句子、投票数、年龄、性别、口音、地区等信息,数据集分为训练集、验证集和测试集,分别包含4479、2281和2947个示例。hi_in配置包含音频数据、转录文本、性别、语言ID、语言组ID等信息,数据集分为训练集、验证集和测试集,分别包含2120、239和418个示例。两个配置的音频采样率均为16000Hz。

该数据集包含两个配置:hi和hi_in。hi配置包含音频数据、句子、投票数、年龄、性别、口音、地区等信息,数据集分为训练集、验证集和测试集,分别包含4479、2281和2947个示例。hi_in配置包含音频数据、转录文本、性别、语言ID、语言组ID等信息,数据集分为训练集、验证集和测试集,分别包含2120、239和418个示例。两个配置的音频采样率均为16000Hz。
提供机构:
satani
原始信息汇总

数据集概述

配置 hi

特征

  • client_id: 字符串
  • path: 字符串
  • audio: 音频,采样率 16000
  • sentence: 字符串
  • up_votes: 整数
  • down_votes: 整数
  • age: 字符串
  • gender: 字符串
  • accent: 字符串
  • locale: 字符串
  • segment: 字符串
  • variant: 字符串
  • whisper_transcript: 整数序列

分割

  • train: 字节数 133795020.934, 样本数 4479
  • validation: 字节数 67494362.935, 样本数 2281
  • test: 字节数 102994313.039, 样本数 2947

大小

  • 下载大小: 269388323
  • 数据集大小: 304283696.908

配置 hi_in

特征

  • id: 整数
  • num_samples: 整数
  • path: 字符串
  • audio: 音频,采样率 16000
  • transcription: 字符串
  • raw_transcription: 字符串
  • gender: 类别标签,取值: male, female, other
  • lang_id: 类别标签,取值: af_za, am_et, ..., zu_za, all
  • language: 字符串
  • lang_group_id: 类别标签,取值: western_european_we, eastern_european_ee, ..., chinese_japanase_korean_cjk
  • whisper_transcript: 整数序列

分割

  • train: 字节数 1537557908.2, 样本数 2120
  • validation: 字节数 164618710.0, 样本数 239
  • test: 字节数 310072327.0, 样本数 418

大小

  • 下载大小: 1998285116
  • 数据集大小: 2012248945.2

数据文件路径

配置 hi

  • train: hi/train-*
  • validation: hi/validation-*
  • test: hi/test-*

配置 hi_in

  • train: hi_in/train-*
  • validation: hi_in/validation-*
  • test: hi_in/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作