uoe-nlp/multi3-nlu
收藏Hugging Face2024-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/uoe-nlp/multi3-nlu
下载链接
链接失效反馈官方服务:
资源简介:
Multi<sup>3</sup>NLU++数据集是一个多语言、多意图、多领域的任务导向对话系统数据集。它包含了3080条每种语言的语句,涵盖了银行和酒店两个领域,共有62种独特的意图。数据集支持多标签意图检测、槽填充和跨语言语言理解任务。数据集覆盖了英语、西班牙语、土耳其语、马拉地语和阿姆哈拉语。数据集的创建旨在解决现有任务导向对话数据集在意图检测、领域覆盖、槽类型和语言多样性方面的局限性。
提供机构:
uoe-nlp
原始信息汇总
数据集概述
数据集名称
- 名称: Multi<sup>3</sup>NLU++
数据集描述
数据集摘要
- 内容: Multi<sup>3</sup>NLU++包含每种语言3080条语音,用于构建多语言、多意图、多领域的任务导向对话系统。涉及的领域包括银行业务和酒店服务。共有62种独特的意图。
- 获取方式: 通过
git clone https://huggingface.co/datasets/uoe-nlp/multi3-nlu/获取数据集。
支持的任务和排行榜
- 任务:
- 多标签意图检测
- 槽填充
- 跨语言任务导向对话理解
语言
- 覆盖语言: 除了英语源数据集外,还包括西班牙语、土耳其语、马拉地语和阿姆哈拉语。
数据集结构
数据实例
- 特征: 每个数据实例包含文本、意图、唯一标识符(uid)、语言(lang),偶尔包含槽(slots)和值(values)。
- 示例: json { "text": "माझे उद्याचे रिझर्वेशन मला रद्द का करता येणार नाही?", "intents": ["why", "booking", "cancel_close_leave_freeze", "wrong_notworking_notshowing"], "slots": { "date_from": { "text": "उद्याचे", "span": [5, 12], "value": { "day": 16, "month": 3, "year": 2022 } } }, "uid": "hotel_1_1", "lang": "mr" }
数据字段
- 字段:
- text: 包含需要检测意图的语音的字符串
- intents: 相应的意图标签
- uid: 每种语言的唯一标识符
- lang: 数据集的语言
- slots: 需要提取的跨度及其标签和值的注释
数据分割
- 分割方式: 实验在不同的k折验证设置上进行。数据集有多种类型的数据分割。请参阅论文的第4节。
数据集创建
来源数据
- 源语言生产者: 源语言生产者是NLU++数据集的作者。数据集被专业翻译成我们选择的四种语言。我们使用Blend Express和Proz.com招募这些翻译者。
许可信息
- 许可: 数据集遵循Creative Commons Attribution 4.0 International (cc-by-4.0)许可。



