uoe-nlp/multi3-nlu

Name: uoe-nlp/multi3-nlu
Creator: uoe-nlp
Published: 2024-11-04 08:23:33
License: 暂无描述

Hugging Face2024-11-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/uoe-nlp/multi3-nlu

下载链接

链接失效反馈

官方服务：

资源简介：

Multi3NLU++数据集是一个多语言、多意图、多领域的任务导向对话系统数据集。它包含了3080条每种语言的语句，涵盖了银行和酒店两个领域，共有62种独特的意图。数据集支持多标签意图检测、槽填充和跨语言语言理解任务。数据集覆盖了英语、西班牙语、土耳其语、马拉地语和阿姆哈拉语。数据集的创建旨在解决现有任务导向对话数据集在意图检测、领域覆盖、槽类型和语言多样性方面的局限性。

提供机构：

uoe-nlp

原始信息汇总

数据集概述

数据集名称

名称: Multi3NLU++

数据集描述

数据集摘要

内容: Multi3NLU++包含每种语言3080条语音，用于构建多语言、多意图、多领域的任务导向对话系统。涉及的领域包括银行业务和酒店服务。共有62种独特的意图。
获取方式: 通过git clone https://huggingface.co/datasets/uoe-nlp/multi3-nlu/获取数据集。

支持的任务和排行榜

任务:
- 多标签意图检测
- 槽填充
- 跨语言任务导向对话理解

语言

覆盖语言: 除了英语源数据集外，还包括西班牙语、土耳其语、马拉地语和阿姆哈拉语。

数据集结构

数据实例

特征: 每个数据实例包含文本、意图、唯一标识符(uid)、语言(lang)，偶尔包含槽(slots)和值(values)。
示例: json { "text": "माझे उद्याचे रिझर्वेशन मला रद्द का करता येणार नाही?", "intents": ["why", "booking", "cancel_close_leave_freeze", "wrong_notworking_notshowing"], "slots": { "date_from": { "text": "उद्याचे", "span": [5, 12], "value": { "day": 16, "month": 3, "year": 2022 } } }, "uid": "hotel_1_1", "lang": "mr" }

数据字段

字段:
- text: 包含需要检测意图的语音的字符串
- intents: 相应的意图标签
- uid: 每种语言的唯一标识符
- lang: 数据集的语言
- slots: 需要提取的跨度及其标签和值的注释

数据分割

分割方式: 实验在不同的k折验证设置上进行。数据集有多种类型的数据分割。请参阅论文的第4节。

数据集创建

来源数据

源语言生产者: 源语言生产者是NLU++数据集的作者。数据集被专业翻译成我们选择的四种语言。我们使用Blend Express和Proz.com招募这些翻译者。

许可信息

许可: 数据集遵循Creative Commons Attribution 4.0 International (cc-by-4.0)许可。

5,000+

优质数据集

54 个

任务类型

进入经典数据集