Fluent_Speech_Commands
收藏魔搭社区2025-10-04 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Fluent_Speech_Commands
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Fluent Speech Commands
labelTypes:
- Multi-label Classification
- Word Annotation
- Intent Annotation
license:
- CC BY-NC 4.0
mediaTypes:
- Audio
paperUrl: https://arxiv.org/pdf/1904.03670v2.pdf
publishDate: "2021-04-19"
publishUrl: https://fluent.ai/fluent-speech-commands-a-dataset-for-spoken-language-understanding-research/
publisher:
- University of Montreal
tags:
- Voice
taskTypes:
- Spoken Language Understanding
---
# 数据集介绍
## 简介
流利的语音命令是用于口语理解 (SLU) 实验的开源音频数据集。每个话语都标有 “action”,“object” 和 “location” 值; 例如,“打开厨房中的灯” 具有标签 {“action”: “activate”,“object”: “lights”,“location”: “kitchen”}。模型必须预测这些值中的每一个,并且只有在所有值都正确的情况下,对话语的预测才被认为是正确的。
任务非常简单,但是数据集很大且灵活,可以进行多种类型的实验: 例如,可以改变说话者的数量,或者删除特定句子的所有实例,并测试是否在其余句子上训练的模型可以概括。
## 引文
```
@article{lugosch2019speech,
title={Speech model pre-training for end-to-end spoken language understanding},
author={Lugosch, Loren and Ravanelli, Mirco and Ignoto, Patrick and Tomar, Vikrant Singh and Bengio, Yoshua},
journal={arXiv preprint arXiv:1904.03670},
year={2019}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: 流利语音命令(Fluent Speech Commands)
labelTypes:
- 多标签分类
- 词标注
- 意图标注
license:
- 知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0)
mediaTypes:
- 音频
paperUrl: https://arxiv.org/pdf/1904.03670v2.pdf
publishDate: "2021-04-19"
publishUrl: https://fluent.ai/fluent-speech-commands-a-dataset-for-spoken-language-understanding-research/
publisher:
- 蒙特利尔大学
tags:
- 语音
taskTypes:
- 口语语言理解(Spoken Language Understanding)
---
# 数据集介绍
## 简介
流利语音命令(Fluent Speech Commands)是面向口语语言理解(Spoken Language Understanding,SLU)研究的开源音频数据集。每条语音话语均标注有“动作”“对象”与“场景”三类标签值;例如,“打开厨房中的灯”对应的标注为{"action": "activate", "object": "lights", "location": "kitchen"}。模型需对这三类值分别进行预测,仅当所有预测值均准确时,该话语的预测结果才被判定为正确。
该任务看似简单,但数据集体量庞大、场景灵活,可支撑多类实验研究:例如,可调整说话者人数,或移除特定句子的全部实例,以此测试基于剩余样本训练得到的模型能否实现有效泛化。
## 引文
@article{lugosch2019speech,
title={Speech model pre-training for end-to-end spoken language understanding},
author={Lugosch, Loren and Ravanelli, Mirco and Ignoto, Patrick and Tomar, Vikrant Singh and Bengio, Yoshua},
journal={arXiv preprint arXiv:1904.03670},
year={2019}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-10



