macabdul9/fleurs-hubert-discrete-tokens
收藏Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/macabdul9/fleurs-hubert-discrete-tokens
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: id
dtype: int32
- name: num_samples
dtype: int32
- name: path
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: transcription
dtype: string
- name: raw_transcription
dtype: string
- name: gender
dtype:
class_label:
names:
'0': male
'1': female
'2': other
- name: lang_id
dtype:
class_label:
names:
'0': af_za
'1': am_et
'2': ar_eg
'3': as_in
'4': ast_es
'5': az_az
'6': be_by
'7': bg_bg
'8': bn_in
'9': bs_ba
'10': ca_es
'11': ceb_ph
'12': ckb_iq
'13': cmn_hans_cn
'14': cs_cz
'15': cy_gb
'16': da_dk
'17': de_de
'18': el_gr
'19': en_us
'20': es_419
'21': et_ee
'22': fa_ir
'23': ff_sn
'24': fi_fi
'25': fil_ph
'26': fr_fr
'27': ga_ie
'28': gl_es
'29': gu_in
'30': ha_ng
'31': he_il
'32': hi_in
'33': hr_hr
'34': hu_hu
'35': hy_am
'36': id_id
'37': ig_ng
'38': is_is
'39': it_it
'40': ja_jp
'41': jv_id
'42': ka_ge
'43': kam_ke
'44': kea_cv
'45': kk_kz
'46': km_kh
'47': kn_in
'48': ko_kr
'49': ky_kg
'50': lb_lu
'51': lg_ug
'52': ln_cd
'53': lo_la
'54': lt_lt
'55': luo_ke
'56': lv_lv
'57': mi_nz
'58': mk_mk
'59': ml_in
'60': mn_mn
'61': mr_in
'62': ms_my
'63': mt_mt
'64': my_mm
'65': nb_no
'66': ne_np
'67': nl_nl
'68': nso_za
'69': ny_mw
'70': oc_fr
'71': om_et
'72': or_in
'73': pa_in
'74': pl_pl
'75': ps_af
'76': pt_br
'77': ro_ro
'78': ru_ru
'79': sd_in
'80': sk_sk
'81': sl_si
'82': sn_zw
'83': so_so
'84': sr_rs
'85': sv_se
'86': sw_ke
'87': ta_in
'88': te_in
'89': tg_tj
'90': th_th
'91': tr_tr
'92': uk_ua
'93': umb_ao
'94': ur_pk
'95': uz_uz
'96': vi_vn
'97': wo_sn
'98': xh_za
'99': yo_ng
'100': yue_hant_hk
'101': zu_za
'102': all
- name: language
dtype: string
- name: lang_group_id
dtype:
class_label:
names:
'0': western_european_we
'1': eastern_european_ee
'2': central_asia_middle_north_african_cmn
'3': sub_saharan_african_ssa
'4': south_asian_sa
'5': south_east_asian_sea
'6': chinese_japanase_korean_cjk
- name: hubert_discrete_tokens
sequence: int64
splits:
- name: train
num_bytes: 1737943974.832
num_examples: 2602
- name: validation
num_bytes: 242670188.0
num_examples: 394
- name: test
num_bytes: 411706107.0
num_examples: 647
download_size: 2362815325
dataset_size: 2392320269.832
---
# Dataset Card for "fleurs-hubert-discrete-tokens"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
配置项:
- 配置名称:default
数据文件:
- 划分集:训练集(train),路径:data/train-*
- 划分集:验证集(validation),路径:data/validation-*
- 划分集:测试集(test),路径:data/test-*
数据集信息:
特征字段:
- 字段名:id,数据类型:int32
- 字段名:num_samples,数据类型:int32
- 字段名:path,数据类型:string
- 字段名:audio,数据类型:音频(audio),采样率(sampling_rate):16000
- 字段名:transcription,数据类型:string
- 字段名:raw_transcription,数据类型:string
- 字段名:gender,数据类型:类别标签(class_label),类别名称:
'0': male(男性)
'1': female(女性)
'2': other(其他)
- 字段名:lang_id,数据类型:类别标签(class_label),类别名称:
'0': af_za(南非荷兰语)
'1': am_et(阿姆哈拉语,埃塞俄比亚)
'2': ar_eg(阿拉伯语,埃及)
'3': as_in(阿萨姆语,印度)
'4': ast_es(阿斯图里亚斯语,西班牙)
'5': az_az(阿塞拜疆语,阿塞拜疆)
'6': be_by(白俄罗斯语,白俄罗斯)
'7': bg_bg(保加利亚语,保加利亚)
'8': bn_in(孟加拉语,印度)
'9': bs_ba(波斯尼亚语,波斯尼亚和黑塞哥维那)
'10': ca_es(加泰罗尼亚语,西班牙)
'11': ceb_ph(宿务语,菲律宾)
'12': ckb_iq(索拉尼库尔德语,伊拉克)
'13': cmn_hans_cn(简体中文普通话,中国)
'14': cs_cz(捷克语,捷克)
'15': cy_gb(威尔士语,英国)
'16': da_dk(丹麦语,丹麦)
'17': de_de(德语,德国)
'18': el_gr(希腊语,希腊)
'19': en_us(美式英语,美国)
'20': es_419(拉丁美洲西班牙语)
'21': et_ee(爱沙尼亚语,爱沙尼亚)
'22': fa_ir(波斯语,伊朗)
'23': ff_sn(富拉尼语,塞内加尔)
'24': fi_fi(芬兰语,芬兰)
'25': fil_ph(他加禄语,菲律宾)
'26': fr_fr(法语,法国)
'27': ga_ie(爱尔兰语,爱尔兰)
'28': gl_es(加利西亚语,西班牙)
'29': gu_in(古吉拉特语,印度)
'30': ha_ng(豪萨语,尼日利亚)
'31': he_il(希伯来语,以色列)
'32': hi_in(印地语,印度)
'33': hr_hr(克罗地亚语,克罗地亚)
'34': hu_hu(匈牙利语,匈牙利)
'35': hy_am(亚美尼亚语,亚美尼亚)
'36': id_id(印尼语,印度尼西亚)
'37': ig_ng(伊博语,尼日利亚)
'38': is_is(冰岛语,冰岛)
'39': it_it(意大利语,意大利)
'40': ja_jp(日语,日本)
'41': jv_id(爪哇语,印度尼西亚)
'42': ka_ge(格鲁吉亚语,格鲁吉亚)
'43': kam_ke(卡姆巴语,肯尼亚)
'44': kea_cv(卡布列彦语,佛得角)
'45': kk_kz(哈萨克语,哈萨克斯坦)
'46': km_kh(高棉语,柬埔寨)
'47': kn_in(卡纳达语,印度)
'48': ko_kr(韩语,韩国)
'49': ky_kg(吉尔吉斯语,吉尔吉斯斯坦)
'50': lb_lu(卢森堡语,卢森堡)
'51': lg_ug(干达语,乌干达)
'52': ln_cd(林加拉语,刚果(金))
'53': lo_la(老挝语,老挝)
'54': lt_lt(立陶宛语,立陶宛)
'55': luo_ke(卢奥语,肯尼亚)
'56': lv_lv(拉脱维亚语,拉脱维亚)
'57': mi_nz(毛利语,新西兰)
'58': mk_mk(马其顿语,北马其顿)
'59': ml_in(马拉雅拉姆语,印度)
'60': mn_mn(蒙古语,蒙古)
'61': mr_in(马拉地语,印度)
'62': ms_my(马来语,马来西亚)
'63': mt_mt(马耳他语,马耳他)
'64': my_mm(缅甸语,缅甸)
'65': nb_no(挪威博克马尔语,挪威)
'66': ne_np(尼泊尔语,尼泊尔)
'67': nl_nl(荷兰语,荷兰)
'68': nso_za(北索托语,南非)
'69': ny_mw(齐切瓦语,马拉维)
'70': oc_fr(奥克西坦语,法国)
'71': om_et(奥罗莫语,埃塞俄比亚)
'72': or_in(奥里亚语,印度)
'73': pa_in(旁遮普语,印度)
'74': pl_pl(波兰语,波兰)
'75': ps_af(普什图语,阿富汗)
'76': pt_br(巴西葡萄牙语)
'77': ro_ro(罗马尼亚语,罗马尼亚)
'78': ru_ru(俄语,俄罗斯)
'79': sd_in(信德语,印度)
'80': sk_sk(斯洛伐克语,斯洛伐克)
'81': sl_si(斯洛文尼亚语,斯洛文尼亚)
'82': sn_zw(绍纳语,津巴布韦)
'83': so_so(索马里语,索马里)
'84': sr_rs(塞尔维亚语,塞尔维亚)
'85': sv_se(瑞典语,瑞典)
'86': sw_ke(斯瓦希里语,肯尼亚)
'87': ta_in(泰米尔语,印度)
'88': te_in(泰卢固语,印度)
'89': tg_tj(塔吉克语,塔吉克斯坦)
'90': th_th(泰语,泰国)
'91': tr_tr(土耳其语,土耳其)
'92': uk_ua(乌克兰语,乌克兰)
'93': umb_ao(姆本杜语,安哥拉)
'94': ur_pk(乌尔都语,巴基斯坦)
'95': uz_uz(乌兹别克语,乌兹别克斯坦)
'96': vi_vn(越南语,越南)
'97': wo_sn(沃洛夫语,塞内加尔)
'98': xh_za(科萨语,南非)
'99': yo_ng(约鲁巴语,尼日利亚)
'100': yue_hant_hk(繁体粤语,中国香港)
'101': zu_za(祖鲁语,南非)
'102': all(全语种)
- 字段名:language,数据类型:string
- 字段名:lang_group_id,数据类型:类别标签(class_label),类别名称:
'0': western_european_we(西欧语系)
'1': eastern_european_ee(东欧语系)
'2': central_asia_middle_north_african_cmn(中亚、中东及北非与官话语系)
'3': sub_saharan_african_ssa(撒哈拉以南非洲语系)
'4': south_asian_sa(南亚语系)
'5': south_east_asian_sea(东南亚语系)
'6': chinese_japanese_korean_cjk(中、日、韩语系)
- 字段名:hubert_discrete_tokens,数据类型:int64序列(sequence)
数据集划分:
- 划分名称:train(训练集),字节数:1737943974.832,样本数:2602
- 划分名称:validation(验证集),字节数:242670188.0,样本数:394
- 划分名称:test(测试集),字节数:411706107.0,样本数:647
下载大小:2362815325
数据集总大小:2392320269.832
# 「fleurs-hubert-discrete-tokens」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
macabdul9
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
数据集特征
- id: 数据项的唯一标识符,类型为
int32 - num_samples: 样本数量,类型为
int32 - path: 文件路径,类型为
string - audio: 音频数据,采样率为 16000 Hz
- transcription: 转录文本,类型为
string - raw_transcription: 原始转录文本,类型为
string - gender: 性别标识,类型为分类标签,包含以下类别:
- 0: male
- 1: female
- 2: other
- lang_id: 语言标识,类型为分类标签,包含以下类别:
- 0: af_za
- 1: am_et
- ...
- 101: zu_za
- 102: all
- language: 语言名称,类型为
string - lang_group_id: 语言组标识,类型为分类标签,包含以下类别:
- 0: western_european_we
- 1: eastern_european_ee
- 2: central_asia_middle_north_african_cmn
- 3: sub_saharan_african_ssa
- 4: south_asian_sa
- 5: south_east_asian_sea
- 6: chinese_japanase_korean_cjk
- hubert_discrete_tokens: Hubert离散令牌序列,类型为
int64
数据集分割
- 训练集:
- 字节数: 1737943974.832
- 样本数: 2602
- 验证集:
- 字节数: 242670188.0
- 样本数: 394
- 测试集:
- 字节数: 411706107.0
- 样本数: 647
数据集大小
- 下载大小: 2362815325 字节
- 数据集大小: 2392320269.832 字节



