FBK-MT/Speech-MASSIVE
收藏Hugging Face2025-10-07 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/FBK-MT/Speech-MASSIVE
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言语音数据集,旨在支持口语理解(SLU)及其他相关任务。数据集涵盖了多种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。数据集的任务类别包括音频分类、文本分类、零样本分类和自动语音识别。数据集的特征包括场景、意图、音频数据等,并且提供了不同语言环境的配置。数据集的大小在10K到100K之间,适用于多语言环境下的语音理解和分类任务。
该数据集是一个多语言语音数据集,旨在支持口语理解(SLU)及其他相关任务。数据集涵盖了多种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。数据集的任务类别包括音频分类、文本分类、零样本分类和自动语音识别。数据集的特征包括场景、意图、音频数据等,并且提供了不同语言环境的配置。数据集的大小在10K到100K之间,适用于多语言环境下的语音理解和分类任务。
提供机构:
FBK-MT
原始信息汇总
数据集概述
基本信息
- 名称: A Multilingual Speech Dataset for SLU and Beyond
- 语言:
- 阿拉伯语 (ar)
- 德语 (de)
- 西班牙语 (es)
- 法语 (fr)
- 匈牙利语 (hu)
- 韩语 (ko)
- 荷兰语 (nl)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 土耳其语 (tr)
- 越南语 (vi)
- 许可证: CC BY-NC-SA 4.0
- 多语言性: 多语言
- 数据量: 10K < n < 100K
- 来源: 扩展
任务类别
- 音频分类
- 文本分类
- 零样本分类
- 自动语音识别
数据集配置
配置: all
- 特征:
- id: string
- locale: string
- partition: string
- scenario: class_label
- scenario_str: string
- intent_idx: class_label
- intent_str: string
- utt: string
- annot_utt: string
- worker_id: string
- slot_method: sequence
- judgments: sequence
- tokens: sequence
- labels: sequence
- audio: audio (sampling_rate: 16000)
- path: string
- is_transcript_reported: bool
- is_validated: bool
- speaker_id: string
- speaker_sex: string
- speaker_age: string
- speaker_ethnicity_simple: string
- speaker_country_of_birth: string
- speaker_country_of_residence: string
- speaker_nationality: string
- speaker_first_language: string
- 分割:
- train_115: 1380 个样本, 532077103.0 字节
- validation: 24396 个样本, 9234162673.0 字节
- train: 23028 个样本, 8663050038.0 字节
- 下载大小: 16248746607 字节
- 数据集大小: 18429289814.0 字节
配置: ar-SA
- 特征: 同上
- 分割:
- train_115: 115 个样本, 48998773.0 字节
- validation: 2033 个样本, 734995890.0 字节
- 下载大小: 1393604308 字节
- 数据集大小: 783994663.0 字节
配置: de-DE
- 特征: 同上
- 分割:
- train_115: 115 个样本, 53545483.0 字节
- validation: 2033 个样本, 806014344.0 字节
- train: 11514 个样本, 4364110141.0 字节
- 下载大小: 9122884630 字节
- 数据集大小: 5223669968.0 字节
配置: es-ES
- 特征: 同上
- 分割:
- train_115: 115 个样本, 46618371.0 字节
- validation: 2033 个样本, 876039204.0 字节
- 下载大小: 1630709565 字节
- 数据集大小: 922657575.0 字节
配置: fr-FR
- 特征: 同上
- 分割:
- train_115: 115 个样本, 46618371.0 字节
- validation: 2033 个样本, 876039204.0 字节
- 下载大小: 1630709565 字节
- 数据集大小: 922657575.0 字节



