PolyAI/minds14
收藏MInDS-14 数据集概述
数据集描述
- 数据集名称: MInDS-14
- 数据集用途: 用于意图检测任务的语音数据训练和评估
- 覆盖意图数量: 14个
- 语言种类: 14种多样化的语言变体
- 总磁盘使用量: 约500 MB
数据集结构
数据实例
- 配置:
fr-FR- 下载的数据集文件大小: 471 MB
- 生成的数据集大小: 300 KB
- 总磁盘使用量: 471 MB
示例数据实例
json { "path": "/home/patrick/.cache/huggingface/datasets/downloads/extracted/3ebe2265b2f102203be5e64fa8e533e0c6742e72268772c8ac1834c5a1a921e3/fr-FR~ADDRESS/response_4.wav", "audio": { "path": "/home/patrick/.cache/huggingface/datasets/downloads/extracted/3ebe2265b2f102203be5e64fa8e533e0c6742e72268772c8ac1834c5a1a921e3/fr-FR~ADDRESS/response_4.wav", "array": array( [0.0, 0.0, 0.0, ..., 0.0, 0.00048828, -0.00024414], dtype=float32 ), "sampling_rate": 8000, }, "transcription": "je souhaite changer mon adresse", "english_transcription": "I want to change my address", "intent_class": 1, "lang_id": 6, }
数据字段
- path (str): 音频文件路径
- audio (dict): 包含音频数组、采样率和音频路径的音频对象
- transcription (str): 音频文件的转录文本
- english_transcription (str): 音频文件的英文转录文本
- intent_class (int): 意图类别的ID
- lang_id (int): 语言的ID
数据分割
- 每个配置仅包含
"train"分割,包含约600个示例。
数据集创建
- 标注创建者:
- 专家生成
- 众包
- 机器生成
- 语言创建者:
- 众包
- 专家生成
- 语言:
- en, fr, it, es, pt, de, nl, ru, pl, cs, ko, zh
- 语言BCP47:
- en, en-GB, en-US, en-AU, fr, it, es, pt, de, nl, ru, pl, cs, ko, zh
- 许可证: CC-BY-4.0
- 多语言性: 多语言
- 数据集大小分类: 10K<n<100K
- 任务类别:
- 自动语音识别
- 语音处理
- 任务ID:
- 语音识别
- 关键词识别
额外信息
许可证信息
- 所有数据集均在 Creative Commons license (CC-BY) 下授权。
引用信息
bibtex @article{DBLP:journals/corr/abs-2104-08524, author = {Daniela Gerz and Pei{-}Hao Su and Razvan Kusztos and Avishek Mondal and Michal Lis and Eshan Singhal and Nikola Mrksic and Tsung{-}Hsien Wen and Ivan Vulic}, title = {Multilingual and Cross-Lingual Intent Detection from Spoken Data}, journal = {CoRR}, volume = {abs/2104.08524}, year = {2021}, url = {https://arxiv.org/abs/2104.08524}, eprinttype = {arXiv}, eprint = {2104.08524}, timestamp = {Mon, 26 Apr 2021 17:25:10 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2104-08524.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




