Beijuka/clean_testfiltered_fleurs_zu
收藏Hugging Face2024-07-12 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Beijuka/clean_testfiltered_fleurs_zu
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如ID、样本数量、路径、音频、转录文本、原始转录文本、性别、语言ID、语言、语言组ID等。音频特征的采样率为16000Hz。性别和语言ID特征使用类别标签进行分类,其中性别包括男性、女性和其他,语言ID包括多种语言,如英语、西班牙语、中文等。数据集包含一个名为test的分割,包含692个样本,总大小为699279734字节。数据集的下载大小为696735664字节。
The dataset includes multiple features such as ID, number of samples, path, audio, transcription, raw transcription, gender, language ID, language, and language group ID. The audio feature has a sampling rate of 16000Hz. Gender and language ID features are classified using class labels, where gender includes male, female, and other, and language ID includes multiple languages such as English, Spanish, Chinese, etc. The dataset contains a split named test with 692 samples, totaling 699279734 bytes. The download size of the dataset is 696735664 bytes.
提供机构:
Beijuka
原始信息汇总
数据集概述
数据集特征
- id: 整数类型,表示样本的唯一标识符。
- num_samples: 整数类型,表示样本的数量。
- path: 字符串类型,表示音频文件的路径。
- audio: 音频类型,采样率为16000。
- transcription: 字符串类型,表示音频的转录文本。
- raw_transcription: 字符串类型,表示音频的原始转录文本。
- gender: 分类标签类型,表示说话者的性别,包括:
0: 男性1: 女性2: 其他
- lang_id: 分类标签类型,表示语言的标识符,包括:
0: 南非荷兰语1: 阿姆哈拉语2: 阿拉伯语(埃及)3: 阿萨姆语4: 阿斯图里亚斯语5: 阿塞拜疆语6: 白俄罗斯语7: 保加利亚语8: 孟加拉语9: 波斯尼亚语10: 加泰罗尼亚语11: 宿务语12: 库尔德语(中)13: 中文(简体)14: 捷克语15: 威尔士语16: 丹麦语17: 德语18: 希腊语19: 英语(美国)20: 西班牙语(拉丁美洲)21: 爱沙尼亚语22: 波斯语23: 富拉语24: 芬兰语25: 菲律宾语26: 法语27: 爱尔兰语28: 加利西亚语29: 古吉拉特语30: 豪萨语31: 希伯来语32: 印地语33: 克罗地亚语34: 匈牙利语35: 亚美尼亚语36: 印度尼西亚语37: 伊博语38: 冰岛语39: 意大利语40: 日语41: 爪哇语42: 格鲁吉亚语43: 卡姆巴语44: 卡布维尔语45: 哈萨克语46: 高棉语47: 卡纳达语48: 韩语49: 吉尔吉斯语50: 卢森堡语51: 卢干达语52: 林加拉语53: 老挝语54: 立陶宛语55: 卢奥语56: 拉脱维亚语57: 毛利语58: 马其顿语59: 马拉雅拉姆语60: 蒙古语61: 马拉地语62: 马来语63: 马耳他语64: 缅甸语65: 挪威语66: 尼泊尔语67: 荷兰语68: 塞索托语69: 齐切瓦语70: 奥克语71: 奥罗莫语72: 奥里亚语73: 旁遮普语74: 波兰语75: 普什图语76: 葡萄牙语(巴西)77: 罗马尼亚语78: 俄语79: 信德语80: 斯洛伐克语81: 斯洛文尼亚语82: 修纳语83: 索马里语84: 塞尔维亚语85: 瑞典语86: 斯瓦希里语87: 泰米尔语88: 泰卢固语89: 塔吉克语90: 泰语91: 土耳其语92: 乌克兰语93: 翁本杜语94: 乌尔都语95: 乌兹别克语96: 越南语97: 沃洛夫语98: 科萨语99: 约鲁巴语100: 粤语(香港)101: 祖鲁语102: 所有语言
- language: 字符串类型,表示语言的名称。
- lang_group_id: 分类标签类型,表示语言组的标识符,包括:
0: 西欧语言1: 东欧语言2: 中亚、中东和北非语言3: 撒哈拉以南非洲语言4: 南亚语言5: 东南亚语言6: 中日韩语言
数据集分割
- test: 测试集,包含692个样本,总大小为699279734.0字节。
数据集大小
- 下载大小: 696735664字节
- 数据集大小: 699279734.0字节
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- data_files:



