Beijuka/clean_testfiltered_fleurs

Name: Beijuka/clean_testfiltered_fleurs
Creator: Beijuka
Published: 2024-07-11 15:00:39
License: 暂无描述

Hugging Face2024-07-11 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/Beijuka/clean_testfiltered_fleurs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如id、num_samples、path、audio、transcription、raw_transcription、gender、lang_id、language和lang_group_id。其中，audio特征包含采样率为16000的音频数据，gender和lang_id特征使用分类标签表示性别和语言ID。数据集还包含一个测试集分割，包含202个样本，总大小为151726961字节。

The dataset includes multiple features such as id, num_samples, path, audio, transcription, raw_transcription, gender, lang_id, language, and lang_group_id. The audio feature contains audio data with a sampling rate of 16000, and the gender and lang_id features use class labels to represent gender and language ID. The dataset also includes a test split with 202 samples and a total size of 151726961 bytes.

提供机构：

Beijuka

原始信息汇总

数据集概述

数据集特征

id: 整数类型，表示样本的唯一标识。
num_samples: 整数类型，表示样本的数量。
path: 字符串类型，表示音频文件的路径。
audio: 音频类型，采样率为16000。
transcription: 字符串类型，表示音频的转录文本。
raw_transcription: 字符串类型，表示音频的原始转录文本。
gender: 分类标签类型，表示说话者的性别，包括：
- 0: 男性
- 1: 女性
- 2: 其他
lang_id: 分类标签类型，表示语言的标识，包括：
- 0: 南非荷兰语
- 1: 阿姆哈拉语
- 2: 阿拉伯语（埃及）
- 3: 阿萨姆语
- 4: 阿斯图里亚斯语
- 5: 阿塞拜疆语
- 6: 白俄罗斯语
- 7: 保加利亚语
- 8: 孟加拉语
- 9: 波斯尼亚语
- 10: 加泰罗尼亚语
- 11: 宿务语
- 12: 库尔德语（中）
- 13: 中文（简体）
- 14: 捷克语
- 15: 威尔士语
- 16: 丹麦语
- 17: 德语
- 18: 希腊语
- 19: 英语（美国）
- 20: 西班牙语（拉丁美洲）
- 21: 爱沙尼亚语
- 22: 波斯语
- 23: 富拉语
- 24: 芬兰语
- 25: 菲律宾语
- 26: 法语
- 27: 爱尔兰语
- 28: 加利西亚语
- 29: 古吉拉特语
- 30: 豪萨语
- 31: 希伯来语
- 32: 印地语
- 33: 克罗地亚语
- 34: 匈牙利语
- 35: 亚美尼亚语
- 36: 印度尼西亚语
- 37: 伊博语
- 38: 冰岛语
- 39: 意大利语
- 40: 日语
- 41: 爪哇语
- 42: 格鲁吉亚语
- 43: 卡姆巴语
- 44: 卡布列语
- 45: 哈萨克语
- 46: 高棉语
- 47: 卡纳达语
- 48: 韩语
- 49: 吉尔吉斯语
- 50: 卢森堡语
- 51: 卢干达语
- 52: 林加拉语
- 53: 老挝语
- 54: 立陶宛语
- 55: 卢奥语
- 56: 拉脱维亚语
- 57: 毛利语
- 58: 马其顿语
- 59: 马拉雅拉姆语
- 60: 蒙古语
- 61: 马拉地语
- 62: 马来语
- 63: 马耳他语
- 64: 缅甸语
- 65: 挪威语
- 66: 尼泊尔语
- 67: 荷兰语
- 68: 塞索托语
- 69: 齐切瓦语
- 70: 奥克语
- 71: 奥罗莫语
- 72: 奥里亚语
- 73: 旁遮普语
- 74: 波兰语
- 75: 普什图语
- 76: 葡萄牙语（巴西）
- 77: 罗马尼亚语
- 78: 俄语
- 79: 信德语
- 80: 斯洛伐克语
- 81: 斯洛文尼亚语
- 82: 修纳语
- 83: 索马里语
- 84: 塞尔维亚语
- 85: 瑞典语
- 86: 斯瓦希里语
- 87: 泰米尔语
- 88: 泰卢固语
- 89: 塔吉克语
- 90: 泰语
- 91: 土耳其语
- 92: 乌克兰语
- 93: 翁本杜语
- 94: 乌尔都语
- 95: 乌兹别克语
- 96: 越南语
- 97: 沃洛夫语
- 98: 科萨语
- 99: 约鲁巴语
- 100: 粤语（香港）
- 101: 祖鲁语
- 102: 所有语言
language: 字符串类型，表示语言的名称。
lang_group_id: 分类标签类型，表示语言组的标识，包括：
- 0: 西欧语言
- 1: 东欧语言
- 2: 中亚及北非语言
- 3: 撒哈拉以南非洲语言
- 4: 南亚语言
- 5: 东南亚语言
- 6: 中日韩语言

数据集分割

test: 测试集，包含202个样本，总大小为151726961字节。

数据集大小

下载大小: 149556681字节
数据集大小: 151726961字节

配置

default: 默认配置，包含测试集的数据文件路径为data/test-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集