FBK-MT/Speech-MASSIVE

Name: FBK-MT/Speech-MASSIVE
Creator: FBK-MT
Published: 2025-10-07 15:21:44
License: 暂无描述

Hugging Face2025-10-07 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/FBK-MT/Speech-MASSIVE

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言语音数据集，旨在支持口语理解（SLU）及其他相关任务。数据集涵盖了多种语言，包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。数据集的任务类别包括音频分类、文本分类、零样本分类和自动语音识别。数据集的特征包括场景、意图、音频数据等，并且提供了不同语言环境的配置。数据集的大小在10K到100K之间，适用于多语言环境下的语音理解和分类任务。

提供机构：

FBK-MT

原始信息汇总

数据集概述

基本信息

名称: A Multilingual Speech Dataset for SLU and Beyond
语言:
- 阿拉伯语 (ar)
- 德语 (de)
- 西班牙语 (es)
- 法语 (fr)
- 匈牙利语 (hu)
- 韩语 (ko)
- 荷兰语 (nl)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 土耳其语 (tr)
- 越南语 (vi)
许可证: CC BY-NC-SA 4.0
多语言性: 多语言
数据量: 10K < n < 100K
来源: 扩展

任务类别

音频分类
文本分类
零样本分类
自动语音识别

数据集配置

配置: all

特征:
- id: string
- locale: string
- partition: string
- scenario: class_label
- scenario_str: string
- intent_idx: class_label
- intent_str: string
- utt: string
- annot_utt: string
- worker_id: string
- slot_method: sequence
- judgments: sequence
- tokens: sequence
- labels: sequence
- audio: audio (sampling_rate: 16000)
- path: string
- is_transcript_reported: bool
- is_validated: bool
- speaker_id: string
- speaker_sex: string
- speaker_age: string
- speaker_ethnicity_simple: string
- speaker_country_of_birth: string
- speaker_country_of_residence: string
- speaker_nationality: string
- speaker_first_language: string
分割:
- train_115: 1380 个样本, 532077103.0 字节
- validation: 24396 个样本, 9234162673.0 字节
- train: 23028 个样本, 8663050038.0 字节
下载大小: 16248746607 字节
数据集大小: 18429289814.0 字节

配置: ar-SA

特征: 同上
分割:
- train_115: 115 个样本, 48998773.0 字节
- validation: 2033 个样本, 734995890.0 字节
下载大小: 1393604308 字节
数据集大小: 783994663.0 字节

配置: de-DE

特征: 同上
分割:
- train_115: 115 个样本, 53545483.0 字节
- validation: 2033 个样本, 806014344.0 字节
- train: 11514 个样本, 4364110141.0 字节
下载大小: 9122884630 字节
数据集大小: 5223669968.0 字节

配置: es-ES

特征: 同上
分割:
- train_115: 115 个样本, 46618371.0 字节
- validation: 2033 个样本, 876039204.0 字节
下载大小: 1630709565 字节
数据集大小: 922657575.0 字节

配置: fr-FR

特征: 同上
分割:
- train_115: 115 个样本, 46618371.0 字节
- validation: 2033 个样本, 876039204.0 字节
下载大小: 1630709565 字节
数据集大小: 922657575.0 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集