ml-for-speech/edacc
收藏Hugging Face2024-04-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ml-for-speech/edacc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于音频分类的数据集,包含多种语言和方言的标签以及对应的音频数据。数据集的特征包括标签和音频,标签涵盖了意大利语、苏格兰英语、巴西葡萄牙语、主流美国英语、德语、埃及阿拉伯语、越南语、南英英语、牙买加英语、加泰罗尼亚语、拉丁语、印度英语、印尼英语、欧洲英语、南非英语、拉丁美洲西班牙语、中文、东欧语言、保加利亚语、爱尔兰英语、法语、日语、荷兰语和西班牙语等。数据集的分割为验证集,包含9848个样本。建议在数据处理时移除Dont know标签。
该数据集是一个用于音频分类的数据集,包含多种语言和方言的标签以及对应的音频数据。数据集的特征包括标签和音频,标签涵盖了意大利语、苏格兰英语、巴西葡萄牙语、主流美国英语、德语、埃及阿拉伯语、越南语、南英英语、牙买加英语、加泰罗尼亚语、拉丁语、印度英语、印尼英语、欧洲英语、南非英语、拉丁美洲西班牙语、中文、东欧语言、保加利亚语、爱尔兰英语、法语、日语、荷兰语和西班牙语等。数据集的分割为验证集,包含9848个样本。建议在数据处理时移除Dont know标签。
提供机构:
ml-for-speech
原始信息汇总
数据集概述
数据集信息
- 许可证: cc-by-sa-4.0
数据集特征
-
特征名称: label
- 数据类型: 分类标签
- 标签名称:
- 0: Italian
- 1: Scottish English
- 2: Brazilian
- 3: Mainstream US English
- 4: German
- 5: Egyptian
- 6: Vietnamese
- 7: Southern British English
- 8: Jamaican English
- 9: Catalan
- 10: Latin
- 11: Indian English
- 12: Indonesian English
- 13: European
- 14: South African English
- 15: Dont know
- 16: Latin American
- 17: Chinese
- 18: Eastern European
- 19: Bulgarian
- 20: Irish English
- 21: French
- 22: Japanese
- 23: Dutch
- 24: Spanish
-
特征名称: audio
- 数据类型: 音频
数据集分割
- 分割名称: validation
- 数据大小: 3643027205.336 字节
- 示例数量: 9848
数据集大小
- 下载大小: 3334754633 字节
- 数据集总大小: 3643027205.336 字节
配置
- 配置名称: default
- 数据文件路径: data/validation-*
语言
- 支持语言: en
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



