confit/mswc-demo
收藏Hugging Face2024-03-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/confit/mswc-demo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言音频分类数据集,包含英语、印度语和西班牙语三种语言的配置。每个配置包含音频文件、关键词和标签信息。音频文件的采样率为16000Hz。数据集分为训练集、验证集和测试集,每个集合的字节数和样本数都有详细记录。数据集的主要任务是对音频进行分类,标签涵盖了多个类别,如人名、地名等。
该数据集是一个多语言音频分类数据集,包含英语、印度语和西班牙语三种语言的配置。每个配置包含音频文件、关键词和标签信息。音频文件的采样率为16000Hz。数据集分为训练集、验证集和测试集,每个集合的字节数和样本数都有详细记录。数据集的主要任务是对音频进行分类,标签涵盖了多个类别,如人名、地名等。
提供机构:
confit
原始信息汇总
数据集概述
任务类别
- 音频分类
数据集配置
英语配置
- 特征:
file: 字符串类型audio: 音频类型,采样率16000Hzkeyword: 字符串类型label: 类别标签,包含270个类别名称
- 分割:
train: 26744个样本,1718192576.664字节validation: 3491个样本,224272397.438字节test: 3491个样本,224292435.544字节
- 下载大小: 917854791字节
- 数据集大小: 2166757409.646字节
印度配置
- 特征:
file: 字符串类型audio: 音频类型,采样率16000Hzkeyword: 字符串类型label: 类别标签,包含14个类别名称
- 分割:
train: 575个样本,36944917.0字节validation: 83个样本,5332963.0字节test: 81个样本,5204461.0字节
- 下载大小: 14360370字节
- 数据集大小: 47482341.0字节
西班牙配置
- 特征:
file: 字符串类型audio: 音频类型,采样率16000Hzkeyword: 字符串类型label: 类别标签,包含146个类别名称
- 分割:
train: 9283个样本,596440405.052字节validation: 1238个样本,79545678.932字节test: 1238个样本,79547516.124字节
- 下载大小: 307919332字节
- 数据集大小: 755533600.108字节
数据文件路径
- 英语:
train: english/train-*validation: english/validation-*test: english/test-*
- 印度:
train: indian/train-*validation: indian/validation-*test: indian/test-*
- 西班牙:
train: spanish/train-*validation: spanish/validation-*test: spanish/test-*
标签
- 音频
- 多类别
- 语音
- 命令



