five

confit/mswc-demo

收藏
Hugging Face2024-03-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/confit/mswc-demo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言音频分类数据集,包含英语、印度语和西班牙语三种语言的配置。每个配置包含音频文件、关键词和标签信息。音频文件的采样率为16000Hz。数据集分为训练集、验证集和测试集,每个集合的字节数和样本数都有详细记录。数据集的主要任务是对音频进行分类,标签涵盖了多个类别,如人名、地名等。

该数据集是一个多语言音频分类数据集,包含英语、印度语和西班牙语三种语言的配置。每个配置包含音频文件、关键词和标签信息。音频文件的采样率为16000Hz。数据集分为训练集、验证集和测试集,每个集合的字节数和样本数都有详细记录。数据集的主要任务是对音频进行分类,标签涵盖了多个类别,如人名、地名等。
提供机构:
confit
原始信息汇总

数据集概述

任务类别

  • 音频分类

数据集配置

英语配置

  • 特征:
    • file: 字符串类型
    • audio: 音频类型,采样率16000Hz
    • keyword: 字符串类型
    • label: 类别标签,包含270个类别名称
  • 分割:
    • train: 26744个样本,1718192576.664字节
    • validation: 3491个样本,224272397.438字节
    • test: 3491个样本,224292435.544字节
  • 下载大小: 917854791字节
  • 数据集大小: 2166757409.646字节

印度配置

  • 特征:
    • file: 字符串类型
    • audio: 音频类型,采样率16000Hz
    • keyword: 字符串类型
    • label: 类别标签,包含14个类别名称
  • 分割:
    • train: 575个样本,36944917.0字节
    • validation: 83个样本,5332963.0字节
    • test: 81个样本,5204461.0字节
  • 下载大小: 14360370字节
  • 数据集大小: 47482341.0字节

西班牙配置

  • 特征:
    • file: 字符串类型
    • audio: 音频类型,采样率16000Hz
    • keyword: 字符串类型
    • label: 类别标签,包含146个类别名称
  • 分割:
    • train: 9283个样本,596440405.052字节
    • validation: 1238个样本,79545678.932字节
    • test: 1238个样本,79547516.124字节
  • 下载大小: 307919332字节
  • 数据集大小: 755533600.108字节

数据文件路径

  • 英语:
    • train: english/train-*
    • validation: english/validation-*
    • test: english/test-*
  • 印度:
    • train: indian/train-*
    • validation: indian/validation-*
    • test: indian/test-*
  • 西班牙:
    • train: spanish/train-*
    • validation: spanish/validation-*
    • test: spanish/test-*

标签

  • 音频
  • 多类别
  • 语音
  • 命令
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作