macabdul9/fleurs-hubert-discrete-tokens

Name: macabdul9/fleurs-hubert-discrete-tokens
Creator: macabdul9
Published: 2024-02-22 17:18:10
License: 暂无描述

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/macabdul9/fleurs-hubert-discrete-tokens

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: id dtype: int32 - name: num_samples dtype: int32 - name: path dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: transcription dtype: string - name: raw_transcription dtype: string - name: gender dtype: class_label: names: '0': male '1': female '2': other - name: lang_id dtype: class_label: names: '0': af_za '1': am_et '2': ar_eg '3': as_in '4': ast_es '5': az_az '6': be_by '7': bg_bg '8': bn_in '9': bs_ba '10': ca_es '11': ceb_ph '12': ckb_iq '13': cmn_hans_cn '14': cs_cz '15': cy_gb '16': da_dk '17': de_de '18': el_gr '19': en_us '20': es_419 '21': et_ee '22': fa_ir '23': ff_sn '24': fi_fi '25': fil_ph '26': fr_fr '27': ga_ie '28': gl_es '29': gu_in '30': ha_ng '31': he_il '32': hi_in '33': hr_hr '34': hu_hu '35': hy_am '36': id_id '37': ig_ng '38': is_is '39': it_it '40': ja_jp '41': jv_id '42': ka_ge '43': kam_ke '44': kea_cv '45': kk_kz '46': km_kh '47': kn_in '48': ko_kr '49': ky_kg '50': lb_lu '51': lg_ug '52': ln_cd '53': lo_la '54': lt_lt '55': luo_ke '56': lv_lv '57': mi_nz '58': mk_mk '59': ml_in '60': mn_mn '61': mr_in '62': ms_my '63': mt_mt '64': my_mm '65': nb_no '66': ne_np '67': nl_nl '68': nso_za '69': ny_mw '70': oc_fr '71': om_et '72': or_in '73': pa_in '74': pl_pl '75': ps_af '76': pt_br '77': ro_ro '78': ru_ru '79': sd_in '80': sk_sk '81': sl_si '82': sn_zw '83': so_so '84': sr_rs '85': sv_se '86': sw_ke '87': ta_in '88': te_in '89': tg_tj '90': th_th '91': tr_tr '92': uk_ua '93': umb_ao '94': ur_pk '95': uz_uz '96': vi_vn '97': wo_sn '98': xh_za '99': yo_ng '100': yue_hant_hk '101': zu_za '102': all - name: language dtype: string - name: lang_group_id dtype: class_label: names: '0': western_european_we '1': eastern_european_ee '2': central_asia_middle_north_african_cmn '3': sub_saharan_african_ssa '4': south_asian_sa '5': south_east_asian_sea '6': chinese_japanase_korean_cjk - name: hubert_discrete_tokens sequence: int64 splits: - name: train num_bytes: 1737943974.832 num_examples: 2602 - name: validation num_bytes: 242670188.0 num_examples: 394 - name: test num_bytes: 411706107.0 num_examples: 647 download_size: 2362815325 dataset_size: 2392320269.832 --- # Dataset Card for "fleurs-hubert-discrete-tokens" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 划分集：训练集（train），路径：data/train-* - 划分集：验证集（validation），路径：data/validation-* - 划分集：测试集（test），路径：data/test-* 数据集信息：特征字段： - 字段名：id，数据类型：int32 - 字段名：num_samples，数据类型：int32 - 字段名：path，数据类型：string - 字段名：audio，数据类型：音频（audio），采样率（sampling_rate）：16000 - 字段名：transcription，数据类型：string - 字段名：raw_transcription，数据类型：string - 字段名：gender，数据类型：类别标签（class_label），类别名称： '0': male（男性） '1': female（女性） '2': other（其他） - 字段名：lang_id，数据类型：类别标签（class_label），类别名称： '0': af_za（南非荷兰语） '1': am_et（阿姆哈拉语，埃塞俄比亚） '2': ar_eg（阿拉伯语，埃及） '3': as_in（阿萨姆语，印度） '4': ast_es（阿斯图里亚斯语，西班牙） '5': az_az（阿塞拜疆语，阿塞拜疆） '6': be_by（白俄罗斯语，白俄罗斯） '7': bg_bg（保加利亚语，保加利亚） '8': bn_in（孟加拉语，印度） '9': bs_ba（波斯尼亚语，波斯尼亚和黑塞哥维那） '10': ca_es（加泰罗尼亚语，西班牙） '11': ceb_ph（宿务语，菲律宾） '12': ckb_iq（索拉尼库尔德语，伊拉克） '13': cmn_hans_cn（简体中文普通话，中国） '14': cs_cz（捷克语，捷克） '15': cy_gb（威尔士语，英国） '16': da_dk（丹麦语，丹麦） '17': de_de（德语，德国） '18': el_gr（希腊语，希腊） '19': en_us（美式英语，美国） '20': es_419（拉丁美洲西班牙语） '21': et_ee（爱沙尼亚语，爱沙尼亚） '22': fa_ir（波斯语，伊朗） '23': ff_sn（富拉尼语，塞内加尔） '24': fi_fi（芬兰语，芬兰） '25': fil_ph（他加禄语，菲律宾） '26': fr_fr（法语，法国） '27': ga_ie（爱尔兰语，爱尔兰） '28': gl_es（加利西亚语，西班牙） '29': gu_in（古吉拉特语，印度） '30': ha_ng（豪萨语，尼日利亚） '31': he_il（希伯来语，以色列） '32': hi_in（印地语，印度） '33': hr_hr（克罗地亚语，克罗地亚） '34': hu_hu（匈牙利语，匈牙利） '35': hy_am（亚美尼亚语，亚美尼亚） '36': id_id（印尼语，印度尼西亚） '37': ig_ng（伊博语，尼日利亚） '38': is_is（冰岛语，冰岛） '39': it_it（意大利语，意大利） '40': ja_jp（日语，日本） '41': jv_id（爪哇语，印度尼西亚） '42': ka_ge（格鲁吉亚语，格鲁吉亚） '43': kam_ke（卡姆巴语，肯尼亚） '44': kea_cv（卡布列彦语，佛得角） '45': kk_kz（哈萨克语，哈萨克斯坦） '46': km_kh（高棉语，柬埔寨） '47': kn_in（卡纳达语，印度） '48': ko_kr（韩语，韩国） '49': ky_kg（吉尔吉斯语，吉尔吉斯斯坦） '50': lb_lu（卢森堡语，卢森堡） '51': lg_ug（干达语，乌干达） '52': ln_cd（林加拉语，刚果（金）） '53': lo_la（老挝语，老挝） '54': lt_lt（立陶宛语，立陶宛） '55': luo_ke（卢奥语，肯尼亚） '56': lv_lv（拉脱维亚语，拉脱维亚） '57': mi_nz（毛利语，新西兰） '58': mk_mk（马其顿语，北马其顿） '59': ml_in（马拉雅拉姆语，印度） '60': mn_mn（蒙古语，蒙古） '61': mr_in（马拉地语，印度） '62': ms_my（马来语，马来西亚） '63': mt_mt（马耳他语，马耳他） '64': my_mm（缅甸语，缅甸） '65': nb_no（挪威博克马尔语，挪威） '66': ne_np（尼泊尔语，尼泊尔） '67': nl_nl（荷兰语，荷兰） '68': nso_za（北索托语，南非） '69': ny_mw（齐切瓦语，马拉维） '70': oc_fr（奥克西坦语，法国） '71': om_et（奥罗莫语，埃塞俄比亚） '72': or_in（奥里亚语，印度） '73': pa_in（旁遮普语，印度） '74': pl_pl（波兰语，波兰） '75': ps_af（普什图语，阿富汗） '76': pt_br（巴西葡萄牙语） '77': ro_ro（罗马尼亚语，罗马尼亚） '78': ru_ru（俄语，俄罗斯） '79': sd_in（信德语，印度） '80': sk_sk（斯洛伐克语，斯洛伐克） '81': sl_si（斯洛文尼亚语，斯洛文尼亚） '82': sn_zw（绍纳语，津巴布韦） '83': so_so（索马里语，索马里） '84': sr_rs（塞尔维亚语，塞尔维亚） '85': sv_se（瑞典语，瑞典） '86': sw_ke（斯瓦希里语，肯尼亚） '87': ta_in（泰米尔语，印度） '88': te_in（泰卢固语，印度） '89': tg_tj（塔吉克语，塔吉克斯坦） '90': th_th（泰语，泰国） '91': tr_tr（土耳其语，土耳其） '92': uk_ua（乌克兰语，乌克兰） '93': umb_ao（姆本杜语，安哥拉） '94': ur_pk（乌尔都语，巴基斯坦） '95': uz_uz（乌兹别克语，乌兹别克斯坦） '96': vi_vn（越南语，越南） '97': wo_sn（沃洛夫语，塞内加尔） '98': xh_za（科萨语，南非） '99': yo_ng（约鲁巴语，尼日利亚） '100': yue_hant_hk（繁体粤语，中国香港） '101': zu_za（祖鲁语，南非） '102': all（全语种） - 字段名：language，数据类型：string - 字段名：lang_group_id，数据类型：类别标签（class_label），类别名称： '0': western_european_we（西欧语系） '1': eastern_european_ee（东欧语系） '2': central_asia_middle_north_african_cmn（中亚、中东及北非与官话语系） '3': sub_saharan_african_ssa（撒哈拉以南非洲语系） '4': south_asian_sa（南亚语系） '5': south_east_asian_sea（东南亚语系） '6': chinese_japanese_korean_cjk（中、日、韩语系） - 字段名：hubert_discrete_tokens，数据类型：int64序列（sequence）数据集划分： - 划分名称：train（训练集），字节数：1737943974.832，样本数：2602 - 划分名称：validation（验证集），字节数：242670188.0，样本数：394 - 划分名称：test（测试集），字节数：411706107.0，样本数：647 下载大小：2362815325 数据集总大小：2392320269.832 # 「fleurs-hubert-discrete-tokens」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

macabdul9

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

数据集特征

id: 数据项的唯一标识符，类型为 int32
num_samples: 样本数量，类型为 int32
path: 文件路径，类型为 string
audio: 音频数据，采样率为 16000 Hz
transcription: 转录文本，类型为 string
raw_transcription: 原始转录文本，类型为 string
gender: 性别标识，类型为分类标签，包含以下类别:
- 0: male
- 1: female
- 2: other
lang_id: 语言标识，类型为分类标签，包含以下类别:
- 0: af_za
- 1: am_et
- ...
- 101: zu_za
- 102: all
language: 语言名称，类型为 string
lang_group_id: 语言组标识，类型为分类标签，包含以下类别:
- 0: western_european_we
- 1: eastern_european_ee
- 2: central_asia_middle_north_african_cmn
- 3: sub_saharan_african_ssa
- 4: south_asian_sa
- 5: south_east_asian_sea
- 6: chinese_japanase_korean_cjk
hubert_discrete_tokens: Hubert离散令牌序列，类型为 int64

数据集分割

训练集:
- 字节数: 1737943974.832
- 样本数: 2602
验证集:
- 字节数: 242670188.0
- 样本数: 394
测试集:
- 字节数: 411706107.0
- 样本数: 647

数据集大小

下载大小: 2362815325 字节
数据集大小: 2392320269.832 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集