satani/common_voice_13_0_hi_pseudo_labelled
收藏Hugging Face2023-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/satani/common_voice_13_0_hi_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:hi和hi_in。hi配置包含音频数据、句子、投票数、年龄、性别、口音、地区等信息,数据集分为训练集、验证集和测试集,分别包含4479、2281和2947个示例。hi_in配置包含音频数据、转录文本、性别、语言ID、语言组ID等信息,数据集分为训练集、验证集和测试集,分别包含2120、239和418个示例。两个配置的音频采样率均为16000Hz。
该数据集包含两个配置:hi和hi_in。hi配置包含音频数据、句子、投票数、年龄、性别、口音、地区等信息,数据集分为训练集、验证集和测试集,分别包含4479、2281和2947个示例。hi_in配置包含音频数据、转录文本、性别、语言ID、语言组ID等信息,数据集分为训练集、验证集和测试集,分别包含2120、239和418个示例。两个配置的音频采样率均为16000Hz。
提供机构:
satani
原始信息汇总
数据集概述
配置 hi
特征
client_id: 字符串path: 字符串audio: 音频,采样率 16000sentence: 字符串up_votes: 整数down_votes: 整数age: 字符串gender: 字符串accent: 字符串locale: 字符串segment: 字符串variant: 字符串whisper_transcript: 整数序列
分割
train: 字节数 133795020.934, 样本数 4479validation: 字节数 67494362.935, 样本数 2281test: 字节数 102994313.039, 样本数 2947
大小
- 下载大小: 269388323
- 数据集大小: 304283696.908
配置 hi_in
特征
id: 整数num_samples: 整数path: 字符串audio: 音频,采样率 16000transcription: 字符串raw_transcription: 字符串gender: 类别标签,取值: male, female, otherlang_id: 类别标签,取值: af_za, am_et, ..., zu_za, alllanguage: 字符串lang_group_id: 类别标签,取值: western_european_we, eastern_european_ee, ..., chinese_japanase_korean_cjkwhisper_transcript: 整数序列
分割
train: 字节数 1537557908.2, 样本数 2120validation: 字节数 164618710.0, 样本数 239test: 字节数 310072327.0, 样本数 418
大小
- 下载大小: 1998285116
- 数据集大小: 2012248945.2
数据文件路径
配置 hi
train: hi/train-*validation: hi/validation-*test: hi/test-*
配置 hi_in
train: hi_in/train-*validation: hi_in/validation-*test: hi_in/test-*



