Beijuka/clean_testfiltered_fleurs
收藏Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Beijuka/clean_testfiltered_fleurs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如id、num_samples、path、audio、transcription、raw_transcription、gender、lang_id、language和lang_group_id。其中,audio特征包含采样率为16000的音频数据,gender和lang_id特征使用分类标签表示性别和语言ID。数据集还包含一个测试集分割,包含202个样本,总大小为151726961字节。
The dataset includes multiple features such as id, num_samples, path, audio, transcription, raw_transcription, gender, lang_id, language, and lang_group_id. The audio feature contains audio data with a sampling rate of 16000, and the gender and lang_id features use class labels to represent gender and language ID. The dataset also includes a test split with 202 samples and a total size of 151726961 bytes.
提供机构:
Beijuka
原始信息汇总
数据集概述
数据集特征
- id: 整数类型,表示样本的唯一标识。
- num_samples: 整数类型,表示样本的数量。
- path: 字符串类型,表示音频文件的路径。
- audio: 音频类型,采样率为16000。
- transcription: 字符串类型,表示音频的转录文本。
- raw_transcription: 字符串类型,表示音频的原始转录文本。
- gender: 分类标签类型,表示说话者的性别,包括:
0: 男性1: 女性2: 其他
- lang_id: 分类标签类型,表示语言的标识,包括:
0: 南非荷兰语1: 阿姆哈拉语2: 阿拉伯语(埃及)3: 阿萨姆语4: 阿斯图里亚斯语5: 阿塞拜疆语6: 白俄罗斯语7: 保加利亚语8: 孟加拉语9: 波斯尼亚语10: 加泰罗尼亚语11: 宿务语12: 库尔德语(中)13: 中文(简体)14: 捷克语15: 威尔士语16: 丹麦语17: 德语18: 希腊语19: 英语(美国)20: 西班牙语(拉丁美洲)21: 爱沙尼亚语22: 波斯语23: 富拉语24: 芬兰语25: 菲律宾语26: 法语27: 爱尔兰语28: 加利西亚语29: 古吉拉特语30: 豪萨语31: 希伯来语32: 印地语33: 克罗地亚语34: 匈牙利语35: 亚美尼亚语36: 印度尼西亚语37: 伊博语38: 冰岛语39: 意大利语40: 日语41: 爪哇语42: 格鲁吉亚语43: 卡姆巴语44: 卡布列语45: 哈萨克语46: 高棉语47: 卡纳达语48: 韩语49: 吉尔吉斯语50: 卢森堡语51: 卢干达语52: 林加拉语53: 老挝语54: 立陶宛语55: 卢奥语56: 拉脱维亚语57: 毛利语58: 马其顿语59: 马拉雅拉姆语60: 蒙古语61: 马拉地语62: 马来语63: 马耳他语64: 缅甸语65: 挪威语66: 尼泊尔语67: 荷兰语68: 塞索托语69: 齐切瓦语70: 奥克语71: 奥罗莫语72: 奥里亚语73: 旁遮普语74: 波兰语75: 普什图语76: 葡萄牙语(巴西)77: 罗马尼亚语78: 俄语79: 信德语80: 斯洛伐克语81: 斯洛文尼亚语82: 修纳语83: 索马里语84: 塞尔维亚语85: 瑞典语86: 斯瓦希里语87: 泰米尔语88: 泰卢固语89: 塔吉克语90: 泰语91: 土耳其语92: 乌克兰语93: 翁本杜语94: 乌尔都语95: 乌兹别克语96: 越南语97: 沃洛夫语98: 科萨语99: 约鲁巴语100: 粤语(香港)101: 祖鲁语102: 所有语言
- language: 字符串类型,表示语言的名称。
- lang_group_id: 分类标签类型,表示语言组的标识,包括:
0: 西欧语言1: 东欧语言2: 中亚及北非语言3: 撒哈拉以南非洲语言4: 南亚语言5: 东南亚语言6: 中日韩语言
数据集分割
- test: 测试集,包含202个样本,总大小为151726961字节。
数据集大小
- 下载大小: 149556681字节
- 数据集大小: 151726961字节
配置
- default: 默认配置,包含测试集的数据文件路径为
data/test-*。



