five

Beijuka/clean_testfiltered_fleurs

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Beijuka/clean_testfiltered_fleurs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如id、num_samples、path、audio、transcription、raw_transcription、gender、lang_id、language和lang_group_id。其中,audio特征包含采样率为16000的音频数据,gender和lang_id特征使用分类标签表示性别和语言ID。数据集还包含一个测试集分割,包含202个样本,总大小为151726961字节。

The dataset includes multiple features such as id, num_samples, path, audio, transcription, raw_transcription, gender, lang_id, language, and lang_group_id. The audio feature contains audio data with a sampling rate of 16000, and the gender and lang_id features use class labels to represent gender and language ID. The dataset also includes a test split with 202 samples and a total size of 151726961 bytes.
提供机构:
Beijuka
原始信息汇总

数据集概述

数据集特征

  • id: 整数类型,表示样本的唯一标识。
  • num_samples: 整数类型,表示样本的数量。
  • path: 字符串类型,表示音频文件的路径。
  • audio: 音频类型,采样率为16000。
  • transcription: 字符串类型,表示音频的转录文本。
  • raw_transcription: 字符串类型,表示音频的原始转录文本。
  • gender: 分类标签类型,表示说话者的性别,包括:
    • 0: 男性
    • 1: 女性
    • 2: 其他
  • lang_id: 分类标签类型,表示语言的标识,包括:
    • 0: 南非荷兰语
    • 1: 阿姆哈拉语
    • 2: 阿拉伯语(埃及)
    • 3: 阿萨姆语
    • 4: 阿斯图里亚斯语
    • 5: 阿塞拜疆语
    • 6: 白俄罗斯语
    • 7: 保加利亚语
    • 8: 孟加拉语
    • 9: 波斯尼亚语
    • 10: 加泰罗尼亚语
    • 11: 宿务语
    • 12: 库尔德语(中)
    • 13: 中文(简体)
    • 14: 捷克语
    • 15: 威尔士语
    • 16: 丹麦语
    • 17: 德语
    • 18: 希腊语
    • 19: 英语(美国)
    • 20: 西班牙语(拉丁美洲)
    • 21: 爱沙尼亚语
    • 22: 波斯语
    • 23: 富拉语
    • 24: 芬兰语
    • 25: 菲律宾语
    • 26: 法语
    • 27: 爱尔兰语
    • 28: 加利西亚语
    • 29: 古吉拉特语
    • 30: 豪萨语
    • 31: 希伯来语
    • 32: 印地语
    • 33: 克罗地亚语
    • 34: 匈牙利语
    • 35: 亚美尼亚语
    • 36: 印度尼西亚语
    • 37: 伊博语
    • 38: 冰岛语
    • 39: 意大利语
    • 40: 日语
    • 41: 爪哇语
    • 42: 格鲁吉亚语
    • 43: 卡姆巴语
    • 44: 卡布列语
    • 45: 哈萨克语
    • 46: 高棉语
    • 47: 卡纳达语
    • 48: 韩语
    • 49: 吉尔吉斯语
    • 50: 卢森堡语
    • 51: 卢干达语
    • 52: 林加拉语
    • 53: 老挝语
    • 54: 立陶宛语
    • 55: 卢奥语
    • 56: 拉脱维亚语
    • 57: 毛利语
    • 58: 马其顿语
    • 59: 马拉雅拉姆语
    • 60: 蒙古语
    • 61: 马拉地语
    • 62: 马来语
    • 63: 马耳他语
    • 64: 缅甸语
    • 65: 挪威语
    • 66: 尼泊尔语
    • 67: 荷兰语
    • 68: 塞索托语
    • 69: 齐切瓦语
    • 70: 奥克语
    • 71: 奥罗莫语
    • 72: 奥里亚语
    • 73: 旁遮普语
    • 74: 波兰语
    • 75: 普什图语
    • 76: 葡萄牙语(巴西)
    • 77: 罗马尼亚语
    • 78: 俄语
    • 79: 信德语
    • 80: 斯洛伐克语
    • 81: 斯洛文尼亚语
    • 82: 修纳语
    • 83: 索马里语
    • 84: 塞尔维亚语
    • 85: 瑞典语
    • 86: 斯瓦希里语
    • 87: 泰米尔语
    • 88: 泰卢固语
    • 89: 塔吉克语
    • 90: 泰语
    • 91: 土耳其语
    • 92: 乌克兰语
    • 93: 翁本杜语
    • 94: 乌尔都语
    • 95: 乌兹别克语
    • 96: 越南语
    • 97: 沃洛夫语
    • 98: 科萨语
    • 99: 约鲁巴语
    • 100: 粤语(香港)
    • 101: 祖鲁语
    • 102: 所有语言
  • language: 字符串类型,表示语言的名称。
  • lang_group_id: 分类标签类型,表示语言组的标识,包括:
    • 0: 西欧语言
    • 1: 东欧语言
    • 2: 中亚及北非语言
    • 3: 撒哈拉以南非洲语言
    • 4: 南亚语言
    • 5: 东南亚语言
    • 6: 中日韩语言

数据集分割

  • test: 测试集,包含202个样本,总大小为151726961字节。

数据集大小

  • 下载大小: 149556681字节
  • 数据集大小: 151726961字节

配置

  • default: 默认配置,包含测试集的数据文件路径为data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作