a6kme/minds14-mirror
收藏MInDS-14 数据集概述
基本信息
- 名称: MInDS-14
- 语言: 支持多种语言,包括英语、法语、意大利语、西班牙语、葡萄牙语、德语、荷兰语、俄语、波兰语、捷克语、韩语、中文等。
- 语言BCP47: 包括多种英语变体及上述其他语言。
- 许可证: CC-BY-4.0
- 多语言性: 多语言
- 大小: 约500 MB
- 任务类别: 自动语音识别、语音处理
- 任务ID: 语音识别、关键词检测
数据集结构
- 数据实例: 包含音频文件路径、音频数据、转录文本、意图类别等。
- 数据字段: 包括路径、音频、转录、意图类别等。
- 数据分割: 仅包含训练集,约600个示例。
使用示例
数据集可通过load_dataset函数加载,支持单语言和多语言下载。示例代码展示了如何加载数据、访问音频样本和意图类别。
数据集创建
数据集的创建涉及专家生成、众包和机器生成的方法。
许可证信息
数据集根据CC-BY-4.0许可证发布。
引用信息
数据集的引用信息如下:
@article{DBLP:journals/corr/abs-2104-08524, author = {Daniela Gerz and Pei{-}Hao Su and Razvan Kusztos and Avishek Mondal and Michal Lis and Eshan Singhal and Nikola Mrksic and Tsung{-}Hsien Wen and Ivan Vulic}, title = {Multilingual and Cross-Lingual Intent Detection from Spoken Data}, journal = {CoRR}, volume = {abs/2104.08524}, year = {2021}, url = {https://arxiv.org/abs/2104.08524}, eprinttype = {arXiv}, eprint = {2104.08524}, timestamp = {Mon, 26 Apr 2021 17:25:10 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2104-08524.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




