satani/common_voice_13_0_hi_pseudo_labelled

Name: satani/common_voice_13_0_hi_pseudo_labelled
Creator: satani
Published: 2023-12-08 06:43:28
License: 暂无描述

Hugging Face2023-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/satani/common_voice_13_0_hi_pseudo_labelled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：hi和hi_in。hi配置包含音频数据、句子、投票数、年龄、性别、口音、地区等信息，数据集分为训练集、验证集和测试集，分别包含4479、2281和2947个示例。hi_in配置包含音频数据、转录文本、性别、语言ID、语言组ID等信息，数据集分为训练集、验证集和测试集，分别包含2120、239和418个示例。两个配置的音频采样率均为16000Hz。

提供机构：

satani

原始信息汇总

数据集概述

配置 `hi`

特征

client_id: 字符串
path: 字符串
audio: 音频，采样率 16000
sentence: 字符串
up_votes: 整数
down_votes: 整数
age: 字符串
gender: 字符串
accent: 字符串
locale: 字符串
segment: 字符串
variant: 字符串
whisper_transcript: 整数序列

分割

train: 字节数 133795020.934, 样本数 4479
validation: 字节数 67494362.935, 样本数 2281
test: 字节数 102994313.039, 样本数 2947

大小

下载大小: 269388323
数据集大小: 304283696.908

配置 `hi_in`

特征

id: 整数
num_samples: 整数
path: 字符串
audio: 音频，采样率 16000
transcription: 字符串
raw_transcription: 字符串
gender: 类别标签，取值: male, female, other
lang_id: 类别标签，取值: af_za, am_et, ..., zu_za, all
language: 字符串
lang_group_id: 类别标签，取值: western_european_we, eastern_european_ee, ..., chinese_japanase_korean_cjk
whisper_transcript: 整数序列

分割

train: 字节数 1537557908.2, 样本数 2120
validation: 字节数 164618710.0, 样本数 239
test: 字节数 310072327.0, 样本数 418

大小

下载大小: 1998285116
数据集大小: 2012248945.2

数据文件路径

配置 `hi`

train: hi/train-*
validation: hi/validation-*
test: hi/test-*

配置 `hi_in`

train: hi_in/train-*
validation: hi_in/validation-*
test: hi_in/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集

satani/common_voice_13_0_hi_pseudo_labelled

数据集概述

配置 hi

特征

分割

大小

配置 hi_in

特征

分割

大小

数据文件路径

配置 hi

配置 hi_in

配置 `hi`

配置 `hi_in`

配置 `hi`

配置 `hi_in`