five

FBK-MT/Speech-MASSIVE

收藏
Hugging Face2025-10-07 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/FBK-MT/Speech-MASSIVE
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言语音数据集,旨在支持口语理解(SLU)及其他相关任务。数据集涵盖了多种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。数据集的任务类别包括音频分类、文本分类、零样本分类和自动语音识别。数据集的特征包括场景、意图、音频数据等,并且提供了不同语言环境的配置。数据集的大小在10K到100K之间,适用于多语言环境下的语音理解和分类任务。

该数据集是一个多语言语音数据集,旨在支持口语理解(SLU)及其他相关任务。数据集涵盖了多种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。数据集的任务类别包括音频分类、文本分类、零样本分类和自动语音识别。数据集的特征包括场景、意图、音频数据等,并且提供了不同语言环境的配置。数据集的大小在10K到100K之间,适用于多语言环境下的语音理解和分类任务。
提供机构:
FBK-MT
原始信息汇总

数据集概述

基本信息

  • 名称: A Multilingual Speech Dataset for SLU and Beyond
  • 语言:
    • 阿拉伯语 (ar)
    • 德语 (de)
    • 西班牙语 (es)
    • 法语 (fr)
    • 匈牙利语 (hu)
    • 韩语 (ko)
    • 荷兰语 (nl)
    • 波兰语 (pl)
    • 葡萄牙语 (pt)
    • 俄语 (ru)
    • 土耳其语 (tr)
    • 越南语 (vi)
  • 许可证: CC BY-NC-SA 4.0
  • 多语言性: 多语言
  • 数据量: 10K < n < 100K
  • 来源: 扩展

任务类别

  • 音频分类
  • 文本分类
  • 零样本分类
  • 自动语音识别

数据集配置

配置: all

  • 特征:
    • id: string
    • locale: string
    • partition: string
    • scenario: class_label
    • scenario_str: string
    • intent_idx: class_label
    • intent_str: string
    • utt: string
    • annot_utt: string
    • worker_id: string
    • slot_method: sequence
    • judgments: sequence
    • tokens: sequence
    • labels: sequence
    • audio: audio (sampling_rate: 16000)
    • path: string
    • is_transcript_reported: bool
    • is_validated: bool
    • speaker_id: string
    • speaker_sex: string
    • speaker_age: string
    • speaker_ethnicity_simple: string
    • speaker_country_of_birth: string
    • speaker_country_of_residence: string
    • speaker_nationality: string
    • speaker_first_language: string
  • 分割:
    • train_115: 1380 个样本, 532077103.0 字节
    • validation: 24396 个样本, 9234162673.0 字节
    • train: 23028 个样本, 8663050038.0 字节
  • 下载大小: 16248746607 字节
  • 数据集大小: 18429289814.0 字节

配置: ar-SA

  • 特征: 同上
  • 分割:
    • train_115: 115 个样本, 48998773.0 字节
    • validation: 2033 个样本, 734995890.0 字节
  • 下载大小: 1393604308 字节
  • 数据集大小: 783994663.0 字节

配置: de-DE

  • 特征: 同上
  • 分割:
    • train_115: 115 个样本, 53545483.0 字节
    • validation: 2033 个样本, 806014344.0 字节
    • train: 11514 个样本, 4364110141.0 字节
  • 下载大小: 9122884630 字节
  • 数据集大小: 5223669968.0 字节

配置: es-ES

  • 特征: 同上
  • 分割:
    • train_115: 115 个样本, 46618371.0 字节
    • validation: 2033 个样本, 876039204.0 字节
  • 下载大小: 1630709565 字节
  • 数据集大小: 922657575.0 字节

配置: fr-FR

  • 特征: 同上
  • 分割:
    • train_115: 115 个样本, 46618371.0 字节
    • validation: 2033 个样本, 876039204.0 字节
  • 下载大小: 1630709565 字节
  • 数据集大小: 922657575.0 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作