PolyAI/minds14

Name: PolyAI/minds14
Creator: PolyAI
Published: 2025-08-12 09:22:26
License: 暂无描述

Hugging Face2025-08-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PolyAI/minds14

下载链接

链接失效反馈

官方服务：

资源简介：

MInDS-14 是一个用于口语数据意图检测任务训练和评估的资源。它涵盖了从电子银行领域的商业系统中提取的 14 个意图，以及 14 种不同语言变体的口语示例。该数据集支持多种语言，包括英语、法语、意大利语、西班牙语、葡萄牙语、德语、荷兰语、俄语、波兰语、捷克语、韩语和中文。数据集的许可证为 CC BY 4.0。数据集的大小在 10K 到 100K 之间。主要任务是自动语音识别和关键词检测。数据集的配置包括 all 和各个语言的具体配置。每个配置都包括训练集的路径、音频文件、转录文本、意图类别和语言 ID。数据集还提供了详细的文件大小和示例数量信息。

MInDS-14 is a training and evaluation resource for intent detection tasks with spoken data. It covers 14 intents extracted from a commercial system in the e-banking domain, associated with spoken examples in 14 diverse language varieties. The dataset supports multiple languages, including English, French, Italian, Spanish, Portuguese, German, Dutch, Russian, Polish, Czech, Korean, and Chinese. The license for the dataset is CC BY 4.0. The dataset size falls within the category of 10K < n < 100K. The main tasks include automatic speech recognition and keyword spotting. The dataset configurations include all and specific configurations for each language. Each configuration includes paths, audio files, transcriptions, intent classes, and language IDs for the training set. The dataset also provides detailed information about file sizes and the number of examples.

提供机构：

PolyAI

原始信息汇总

MInDS-14 数据集概述

数据集描述

数据集名称: MInDS-14
数据集用途: 用于意图检测任务的语音数据训练和评估
覆盖意图数量: 14个
语言种类: 14种多样化的语言变体
总磁盘使用量: 约500 MB

数据集结构

数据实例

配置: fr-FR
- 下载的数据集文件大小: 471 MB
- 生成的数据集大小: 300 KB
- 总磁盘使用量: 471 MB

示例数据实例

json { "path": "/home/patrick/.cache/huggingface/datasets/downloads/extracted/3ebe2265b2f102203be5e64fa8e533e0c6742e72268772c8ac1834c5a1a921e3/fr-FR~ADDRESS/response_4.wav", "audio": { "path": "/home/patrick/.cache/huggingface/datasets/downloads/extracted/3ebe2265b2f102203be5e64fa8e533e0c6742e72268772c8ac1834c5a1a921e3/fr-FR~ADDRESS/response_4.wav", "array": array( [0.0, 0.0, 0.0, ..., 0.0, 0.00048828, -0.00024414], dtype=float32 ), "sampling_rate": 8000, }, "transcription": "je souhaite changer mon adresse", "english_transcription": "I want to change my address", "intent_class": 1, "lang_id": 6, }

数据字段

path (str): 音频文件路径
audio (dict): 包含音频数组、采样率和音频路径的音频对象
transcription (str): 音频文件的转录文本
english_transcription (str): 音频文件的英文转录文本
intent_class (int): 意图类别的ID
lang_id (int): 语言的ID

数据分割

每个配置仅包含 "train" 分割，包含约600个示例。

数据集创建

标注创建者:
- 专家生成
- 众包
- 机器生成
语言创建者:
- 众包
- 专家生成
语言:
- en, fr, it, es, pt, de, nl, ru, pl, cs, ko, zh
语言BCP47:
- en, en-GB, en-US, en-AU, fr, it, es, pt, de, nl, ru, pl, cs, ko, zh
许可证: CC-BY-4.0
多语言性: 多语言
数据集大小分类: 10K<n<100K
任务类别:
- 自动语音识别
- 语音处理
任务ID:
- 语音识别
- 关键词识别

额外信息

许可证信息

所有数据集均在 Creative Commons license (CC-BY) 下授权。

引用信息

bibtex @article{DBLP:journals/corr/abs-2104-08524, author = {Daniela Gerz and Pei{-}Hao Su and Razvan Kusztos and Avishek Mondal and Michal Lis and Eshan Singhal and Nikola Mrksic and Tsung{-}Hsien Wen and Ivan Vulic}, title = {Multilingual and Cross-Lingual Intent Detection from Spoken Data}, journal = {CoRR}, volume = {abs/2104.08524}, year = {2021}, url = {https://arxiv.org/abs/2104.08524}, eprinttype = {arXiv}, eprint = {2104.08524}, timestamp = {Mon, 26 Apr 2021 17:25:10 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2104-08524.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

MInDS-14数据集是通过专家、众包和机器生成的方式构建而成的。它包含了来自电子银行领域的14个意图识别任务，涉及14种不同的语言变体。数据集由语音示例和对应的转录文本组成，转录文本包括原始语言和英语版本。此外，每个示例都被标注了意图类别和语言标识。

特点

MInDS-14数据集的特点在于其多语言性和跨语言性，覆盖了14种语言，包括英语、法语、意大利语、西班牙语、葡萄牙语、德语、荷兰语、俄语、波兰语、捷克语、韩语和中文。数据集规模适中，包含超过10,000个语音示例，每个示例都包含了路径、音频、原始转录文本、英文转录文本、意图类别和语言标识等特征。

使用方法

使用MInDS-14数据集进行训练和评估时，可以通过Hugging Face的datasets库轻松加载。数据集支持多语言微调和跨语言意图识别任务。用户可以选择特定语言的子集进行训练，或者加载整个多语言数据集进行微调。数据集加载后，用户可以查看数据集的结构，并根据需要选择相应的分割数据集进行训练和评估。

背景与挑战

背景概述

在自然语言处理领域，语音识别和意图识别是两个至关重要的任务。PolyAI/minds14数据集应运而生，旨在解决多语言环境中语音意图识别的挑战。该数据集由PolyAI团队创建，涵盖了14种不同的语言变体，包括英语、法语、意大利语、西班牙语、葡萄牙语、德语、荷兰语、俄语、波兰语、捷克语和韩语。MInDS-14数据集专注于电子银行领域的14种意图，如账户查询、转账、支付账单等，并提供了相应的语音示例和转录文本。这一数据集的创建，不仅促进了多语言语音意图识别技术的发展，也为跨语言研究提供了宝贵的资源。

当前挑战

MInDS-14数据集在构建和使用过程中面临着诸多挑战。首先，多语言数据的收集和标注是一项艰巨的任务，需要确保语言的多样性和数据的平衡性。其次，语音识别的准确性和意图识别的准确性在多语言环境中尤为重要，而不同语言的语音特性和文化差异增加了这一任务的难度。此外，数据集的规模和多样性也需要在构建过程中得到充分考虑，以确保数据集的广泛适用性和研究价值。最后，随着语音识别和意图识别技术的不断发展，如何不断更新和维护数据集，使其保持先进性和实用性，也是一项持续性的挑战。

常用场景

经典使用场景

在语音识别与理解领域，MInDS-14数据集作为一项重要的资源，被广泛应用于训练和评估意图检测模型。该数据集包含了14种语言变体的口语样本，涵盖了14个不同的商业意图，如地址查询、余额查询、支付账单等。研究人员可以利用MInDS-14数据集来训练语音识别模型，从而实现对用户语音指令的准确理解和响应。

衍生相关工作

基于MInDS-14数据集，研究人员开展了一系列相关工作。例如，有研究者利用MInDS-14数据集训练了跨语言意图检测模型，并取得了较好的效果。此外，还有研究者将MInDS-14数据集应用于语音翻译任务，实现了多语言语音的自动翻译。这些研究工作进一步拓展了MInDS-14数据集的应用范围，为语音识别领域的发展提供了新的思路和方向。

数据集最近研究