five

Beijuka/clean_testfiltered_fleurs_zu

收藏
Hugging Face2024-07-12 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Beijuka/clean_testfiltered_fleurs_zu
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如ID、样本数量、路径、音频、转录文本、原始转录文本、性别、语言ID、语言、语言组ID等。音频特征的采样率为16000Hz。性别和语言ID特征使用类别标签进行分类,其中性别包括男性、女性和其他,语言ID包括多种语言,如英语、西班牙语、中文等。数据集包含一个名为test的分割,包含692个样本,总大小为699279734字节。数据集的下载大小为696735664字节。

The dataset includes multiple features such as ID, number of samples, path, audio, transcription, raw transcription, gender, language ID, language, and language group ID. The audio feature has a sampling rate of 16000Hz. Gender and language ID features are classified using class labels, where gender includes male, female, and other, and language ID includes multiple languages such as English, Spanish, Chinese, etc. The dataset contains a split named test with 692 samples, totaling 699279734 bytes. The download size of the dataset is 696735664 bytes.
提供机构:
Beijuka
原始信息汇总

数据集概述

数据集特征

  • id: 整数类型,表示样本的唯一标识符。
  • num_samples: 整数类型,表示样本的数量。
  • path: 字符串类型,表示音频文件的路径。
  • audio: 音频类型,采样率为16000。
  • transcription: 字符串类型,表示音频的转录文本。
  • raw_transcription: 字符串类型,表示音频的原始转录文本。
  • gender: 分类标签类型,表示说话者的性别,包括:
    • 0: 男性
    • 1: 女性
    • 2: 其他
  • lang_id: 分类标签类型,表示语言的标识符,包括:
    • 0: 南非荷兰语
    • 1: 阿姆哈拉语
    • 2: 阿拉伯语(埃及)
    • 3: 阿萨姆语
    • 4: 阿斯图里亚斯语
    • 5: 阿塞拜疆语
    • 6: 白俄罗斯语
    • 7: 保加利亚语
    • 8: 孟加拉语
    • 9: 波斯尼亚语
    • 10: 加泰罗尼亚语
    • 11: 宿务语
    • 12: 库尔德语(中)
    • 13: 中文(简体)
    • 14: 捷克语
    • 15: 威尔士语
    • 16: 丹麦语
    • 17: 德语
    • 18: 希腊语
    • 19: 英语(美国)
    • 20: 西班牙语(拉丁美洲)
    • 21: 爱沙尼亚语
    • 22: 波斯语
    • 23: 富拉语
    • 24: 芬兰语
    • 25: 菲律宾语
    • 26: 法语
    • 27: 爱尔兰语
    • 28: 加利西亚语
    • 29: 古吉拉特语
    • 30: 豪萨语
    • 31: 希伯来语
    • 32: 印地语
    • 33: 克罗地亚语
    • 34: 匈牙利语
    • 35: 亚美尼亚语
    • 36: 印度尼西亚语
    • 37: 伊博语
    • 38: 冰岛语
    • 39: 意大利语
    • 40: 日语
    • 41: 爪哇语
    • 42: 格鲁吉亚语
    • 43: 卡姆巴语
    • 44: 卡布维尔语
    • 45: 哈萨克语
    • 46: 高棉语
    • 47: 卡纳达语
    • 48: 韩语
    • 49: 吉尔吉斯语
    • 50: 卢森堡语
    • 51: 卢干达语
    • 52: 林加拉语
    • 53: 老挝语
    • 54: 立陶宛语
    • 55: 卢奥语
    • 56: 拉脱维亚语
    • 57: 毛利语
    • 58: 马其顿语
    • 59: 马拉雅拉姆语
    • 60: 蒙古语
    • 61: 马拉地语
    • 62: 马来语
    • 63: 马耳他语
    • 64: 缅甸语
    • 65: 挪威语
    • 66: 尼泊尔语
    • 67: 荷兰语
    • 68: 塞索托语
    • 69: 齐切瓦语
    • 70: 奥克语
    • 71: 奥罗莫语
    • 72: 奥里亚语
    • 73: 旁遮普语
    • 74: 波兰语
    • 75: 普什图语
    • 76: 葡萄牙语(巴西)
    • 77: 罗马尼亚语
    • 78: 俄语
    • 79: 信德语
    • 80: 斯洛伐克语
    • 81: 斯洛文尼亚语
    • 82: 修纳语
    • 83: 索马里语
    • 84: 塞尔维亚语
    • 85: 瑞典语
    • 86: 斯瓦希里语
    • 87: 泰米尔语
    • 88: 泰卢固语
    • 89: 塔吉克语
    • 90: 泰语
    • 91: 土耳其语
    • 92: 乌克兰语
    • 93: 翁本杜语
    • 94: 乌尔都语
    • 95: 乌兹别克语
    • 96: 越南语
    • 97: 沃洛夫语
    • 98: 科萨语
    • 99: 约鲁巴语
    • 100: 粤语(香港)
    • 101: 祖鲁语
    • 102: 所有语言
  • language: 字符串类型,表示语言的名称。
  • lang_group_id: 分类标签类型,表示语言组的标识符,包括:
    • 0: 西欧语言
    • 1: 东欧语言
    • 2: 中亚、中东和北非语言
    • 3: 撒哈拉以南非洲语言
    • 4: 南亚语言
    • 5: 东南亚语言
    • 6: 中日韩语言

数据集分割

  • test: 测试集,包含692个样本,总大小为699279734.0字节。

数据集大小

  • 下载大小: 696735664字节
  • 数据集大小: 699279734.0字节

配置

  • config_name: default
    • data_files:
      • split: test
      • path: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作