five

projecte-aina/NLUCat

收藏
Hugging Face2024-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/NLUCat
下载链接
链接失效反馈
官方服务:
资源简介:
NLUCat是一个用于加泰罗尼亚语自然语言理解的数据集,包含近12,000条指令,每条指令都标注了最相关的意图和文本片段。意图涵盖了虚拟家庭助手的常见任务,如活动日历、物联网、列表管理、休闲等,还包括了针对弱势群体的社会和医疗需求。文本片段标注了信息类型,且可以轻松分组用于鲁棒系统。数据集考虑了加泰罗尼亚语的地理和文化现实,适用于意图分类、文本片段识别和示例生成等任务。数据集分为训练集、开发集和测试集,分别包含9128、1441和1441个示例。数据集的创建旨在促进加泰罗尼亚语这一低资源语言的模型开发,并特别考虑了弱势群体的需求。

NLUCat是一个用于加泰罗尼亚语自然语言理解的数据集,包含近12,000条指令,每条指令都标注了最相关的意图和文本片段。意图涵盖了虚拟家庭助手的常见任务,如活动日历、物联网、列表管理、休闲等,还包括了针对弱势群体的社会和医疗需求。文本片段标注了信息类型,且可以轻松分组用于鲁棒系统。数据集考虑了加泰罗尼亚语的地理和文化现实,适用于意图分类、文本片段识别和示例生成等任务。数据集分为训练集、开发集和测试集,分别包含9128、1441和1441个示例。数据集的创建旨在促进加泰罗尼亚语这一低资源语言的模型开发,并特别考虑了弱势群体的需求。
提供机构:
projecte-aina
原始信息汇总

数据集卡片 for NLUCat

数据集描述

数据集概述

NLUCat 是一个加泰罗尼亚语的自然语言理解(NLU)数据集。它包含近 12,000 条指令,这些指令被标注了最相关的意图和范围。每个指令还附带了标注者编写时的指令。

考虑的意图包括虚拟家庭助手(活动日历、物联网、列表管理、休闲等)的常见意图,但也添加了特定意图以考虑弱势群体的社会和医疗需求(行政程序信息、菜单和药物提醒等)。

范围被标注了描述其所包含信息类型的标签。它们是细粒度的,但可以轻松分组以用于健壮的系统。

示例不仅用加泰罗尼亚语编写,还考虑了该语言使用者的地理和文化现实(地理点、文化参考等)。

该数据集可用于训练意图分类、范围识别和示例生成的模型。

支持的任务和排行榜

意图分类、范围识别和示例生成。

语言

数据集为加泰罗尼亚语(ca-ES)。

数据集结构

数据实例

三个 JSON 文件,每个文件对应一个分割。

数据字段

  • example: str。示例
  • annotation: dict。示例的标注
  • intent: str。意图标签
  • slots: list。槽位列表
  • Tag: str。槽位的标签
  • Text: str。槽位的文本
  • Start_char: int。范围的第一个字符
  • End_char: int。范围的最后一个字符

示例

一个示例如下:

json { "example": "Demana una ambulància; la meva dona està de part.", "annotation": { "intent": "call_emergency", "slots": [ { "Tag": "service", "Text": "ambulància", "Start_char": 11, "End_char": 21 }, { "Tag": "situation", "Text": "la meva dona està de part", "Start_char": 23, "End_char": 48 } ] } }

数据分割

  • NLUCat.train: 9128 个示例
  • NLUCat.dev: 1441 个示例
  • NLUCat.test: 1441 个示例

统计信息

test dev train Total
alarm_query 14 9 68 91
alarm_remove 10 12 68 90
alarm_set 11 10 69 90
app_end 8 9 43 60
app_launch 9 7 47 63
audio_volume_down 15 16 105 136
audio_volume_mute 8 9 62 79
audio_volume_up 14 16 101 131
book restaurant 31 27 182 240
calendar_query 34 38 227 299
calendar_remove 31 33 211 275
calendar_set 50 53 340 443
call_emergency 14 18 111 143
call_medicalService 14 11 70 95
call_person 23 18 116 157
call_service 6 9 45 60
compare_places 6 7 47 60
contact_add 20 22 138 180
contact_query 16 16 89 121
cooking_query 13 12 65 90
cooking_recipe 9 10 74 93
datetime_convert 14 14 95 123
datetime_query 18 17 112 147
general_affirm 6 6 18 30
general_commandstop 13 13 75 101
general_confirm 6 6 48 60
general_dontcare 8 6 46 60
general_explain 5 5 7 17
general_greet 13 10 67 90
general_joke 10 11 69 90
general_negate 12 9 69 90
general_praise 15 10 65 90
general_quirky 15 14 99 128
general_repeat 11 14 65 90
generat_explain 8 7 58 73
iot_cleaning 11 9 70 90
iot_coffee 10 12 68 90
iot_hue_lightchange 9 12 69 90
iot_hue_lightdim 14 12 64 90
iot_hue_lightoff 10 11 70 91
iot_hue_lighton 11 14 66 91
iot_hue_lightup 10 9 70 89
iot_wemo_off 11 13 65 89
iot_wemo_on 6 8 46 60
lists_createoradd 19 16 115 150
lists_query 15 15 92 122
lists_remove 14 14 91 119
medReminder_query 18 17 108 143
medReminder_set 17 17 113 147
medicalAppointment_query 20 19 114 153
medicalAppointment_set 24 23 165 212
menu_query 15 17 113 145
message_query 21 20 140 181
message_send 26 24 162 212
music_dislikeness 10 9 69 88
music_likeness 11 9 71 91
music_query 22 23 135 180
music_settings 9 9 63 81
news_query 19 22 149 190
play_audiobook 12 15 93 120
play_game 12 11 67 90
play_music 41 45 271 357
play_podcasts 20 19 121 160
play_radio 20 20 115 155
play_video 15 15 90 120
qa_currency 12 9 69 90
qa_definition 19 23 147 189
qa_factoid 26 24 143 193
qa_maths 13 12 95 120
qa_medicalService 20 21 117 158
qa_procedures 36 33 220 289
qa_service 16 18 112 146
qa_sports 9 9 72 90
qa_stock 13 10 67 90
recommendation_events 22 22 143 187
recommendation_locations 23 24 157 204
recommendation_movies 18 23 139 180
share_currentLocation 15 13 92 120
social_post 19 20 112 151
social_query 14 14 96 124
takeaway_order 20 25 135 180
takeaway_query 7 9 50 66
transport_directions 28 24 181 233
transport_query 31 31 185 247
transport_taxi 26 22 132 180
transport_ticket 25 25 160 210
transport_traffic 15 17 88 120
weather_query 31 29 189 249
Total 1440 1440 9117 11997
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作