five

uoe-nlp/multi3-nlu

收藏
Hugging Face2024-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/uoe-nlp/multi3-nlu
下载链接
链接失效反馈
官方服务:
资源简介:
Multi<sup>3</sup>NLU++数据集是一个多语言、多意图、多领域的任务导向对话系统数据集。它包含了3080条每种语言的语句,涵盖了银行和酒店两个领域,共有62种独特的意图。数据集支持多标签意图检测、槽填充和跨语言语言理解任务。数据集覆盖了英语、西班牙语、土耳其语、马拉地语和阿姆哈拉语。数据集的创建旨在解决现有任务导向对话数据集在意图检测、领域覆盖、槽类型和语言多样性方面的局限性。
提供机构:
uoe-nlp
原始信息汇总

数据集概述

数据集名称

  • 名称: Multi<sup>3</sup>NLU++

数据集描述

数据集摘要

  • 内容: Multi<sup>3</sup>NLU++包含每种语言3080条语音,用于构建多语言、多意图、多领域的任务导向对话系统。涉及的领域包括银行业务和酒店服务。共有62种独特的意图。
  • 获取方式: 通过git clone https://huggingface.co/datasets/uoe-nlp/multi3-nlu/获取数据集。

支持的任务和排行榜

  • 任务:
    • 多标签意图检测
    • 槽填充
    • 跨语言任务导向对话理解

语言

  • 覆盖语言: 除了英语源数据集外,还包括西班牙语、土耳其语、马拉地语和阿姆哈拉语。

数据集结构

数据实例

  • 特征: 每个数据实例包含文本、意图、唯一标识符(uid)、语言(lang),偶尔包含槽(slots)和值(values)。
  • 示例: json { "text": "माझे उद्याचे रिझर्वेशन मला रद्द का करता येणार नाही?", "intents": ["why", "booking", "cancel_close_leave_freeze", "wrong_notworking_notshowing"], "slots": { "date_from": { "text": "उद्याचे", "span": [5, 12], "value": { "day": 16, "month": 3, "year": 2022 } } }, "uid": "hotel_1_1", "lang": "mr" }

数据字段

  • 字段:
    • text: 包含需要检测意图的语音的字符串
    • intents: 相应的意图标签
    • uid: 每种语言的唯一标识符
    • lang: 数据集的语言
    • slots: 需要提取的跨度及其标签和值的注释

数据分割

  • 分割方式: 实验在不同的k折验证设置上进行。数据集有多种类型的数据分割。请参阅论文的第4节。

数据集创建

来源数据

  • 源语言生产者: 源语言生产者是NLU++数据集的作者。数据集被专业翻译成我们选择的四种语言。我们使用Blend Express和Proz.com招募这些翻译者。

许可信息

  • 许可: 数据集遵循Creative Commons Attribution 4.0 International (cc-by-4.0)许可。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作