projecte-aina/NLUCat
收藏Hugging Face2024-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/NLUCat
下载链接
链接失效反馈官方服务:
资源简介:
NLUCat是一个用于加泰罗尼亚语自然语言理解的数据集,包含近12,000条指令,每条指令都标注了最相关的意图和文本片段。意图涵盖了虚拟家庭助手的常见任务,如活动日历、物联网、列表管理、休闲等,还包括了针对弱势群体的社会和医疗需求。文本片段标注了信息类型,且可以轻松分组用于鲁棒系统。数据集考虑了加泰罗尼亚语的地理和文化现实,适用于意图分类、文本片段识别和示例生成等任务。数据集分为训练集、开发集和测试集,分别包含9128、1441和1441个示例。数据集的创建旨在促进加泰罗尼亚语这一低资源语言的模型开发,并特别考虑了弱势群体的需求。
NLUCat是一个用于加泰罗尼亚语自然语言理解的数据集,包含近12,000条指令,每条指令都标注了最相关的意图和文本片段。意图涵盖了虚拟家庭助手的常见任务,如活动日历、物联网、列表管理、休闲等,还包括了针对弱势群体的社会和医疗需求。文本片段标注了信息类型,且可以轻松分组用于鲁棒系统。数据集考虑了加泰罗尼亚语的地理和文化现实,适用于意图分类、文本片段识别和示例生成等任务。数据集分为训练集、开发集和测试集,分别包含9128、1441和1441个示例。数据集的创建旨在促进加泰罗尼亚语这一低资源语言的模型开发,并特别考虑了弱势群体的需求。
提供机构:
projecte-aina
原始信息汇总
数据集卡片 for NLUCat
数据集描述
数据集概述
NLUCat 是一个加泰罗尼亚语的自然语言理解(NLU)数据集。它包含近 12,000 条指令,这些指令被标注了最相关的意图和范围。每个指令还附带了标注者编写时的指令。
考虑的意图包括虚拟家庭助手(活动日历、物联网、列表管理、休闲等)的常见意图,但也添加了特定意图以考虑弱势群体的社会和医疗需求(行政程序信息、菜单和药物提醒等)。
范围被标注了描述其所包含信息类型的标签。它们是细粒度的,但可以轻松分组以用于健壮的系统。
示例不仅用加泰罗尼亚语编写,还考虑了该语言使用者的地理和文化现实(地理点、文化参考等)。
该数据集可用于训练意图分类、范围识别和示例生成的模型。
支持的任务和排行榜
意图分类、范围识别和示例生成。
语言
数据集为加泰罗尼亚语(ca-ES)。
数据集结构
数据实例
三个 JSON 文件,每个文件对应一个分割。
数据字段
example:str。示例annotation:dict。示例的标注intent:str。意图标签slots:list。槽位列表Tag:str。槽位的标签Text:str。槽位的文本Start_char:int。范围的第一个字符End_char:int。范围的最后一个字符
示例
一个示例如下:
json { "example": "Demana una ambulància; la meva dona està de part.", "annotation": { "intent": "call_emergency", "slots": [ { "Tag": "service", "Text": "ambulància", "Start_char": 11, "End_char": 21 }, { "Tag": "situation", "Text": "la meva dona està de part", "Start_char": 23, "End_char": 48 } ] } }
数据分割
NLUCat.train: 9128 个示例NLUCat.dev: 1441 个示例NLUCat.test: 1441 个示例
统计信息
| test | dev | train | Total | |
|---|---|---|---|---|
| alarm_query | 14 | 9 | 68 | 91 |
| alarm_remove | 10 | 12 | 68 | 90 |
| alarm_set | 11 | 10 | 69 | 90 |
| app_end | 8 | 9 | 43 | 60 |
| app_launch | 9 | 7 | 47 | 63 |
| audio_volume_down | 15 | 16 | 105 | 136 |
| audio_volume_mute | 8 | 9 | 62 | 79 |
| audio_volume_up | 14 | 16 | 101 | 131 |
| book restaurant | 31 | 27 | 182 | 240 |
| calendar_query | 34 | 38 | 227 | 299 |
| calendar_remove | 31 | 33 | 211 | 275 |
| calendar_set | 50 | 53 | 340 | 443 |
| call_emergency | 14 | 18 | 111 | 143 |
| call_medicalService | 14 | 11 | 70 | 95 |
| call_person | 23 | 18 | 116 | 157 |
| call_service | 6 | 9 | 45 | 60 |
| compare_places | 6 | 7 | 47 | 60 |
| contact_add | 20 | 22 | 138 | 180 |
| contact_query | 16 | 16 | 89 | 121 |
| cooking_query | 13 | 12 | 65 | 90 |
| cooking_recipe | 9 | 10 | 74 | 93 |
| datetime_convert | 14 | 14 | 95 | 123 |
| datetime_query | 18 | 17 | 112 | 147 |
| general_affirm | 6 | 6 | 18 | 30 |
| general_commandstop | 13 | 13 | 75 | 101 |
| general_confirm | 6 | 6 | 48 | 60 |
| general_dontcare | 8 | 6 | 46 | 60 |
| general_explain | 5 | 5 | 7 | 17 |
| general_greet | 13 | 10 | 67 | 90 |
| general_joke | 10 | 11 | 69 | 90 |
| general_negate | 12 | 9 | 69 | 90 |
| general_praise | 15 | 10 | 65 | 90 |
| general_quirky | 15 | 14 | 99 | 128 |
| general_repeat | 11 | 14 | 65 | 90 |
| generat_explain | 8 | 7 | 58 | 73 |
| iot_cleaning | 11 | 9 | 70 | 90 |
| iot_coffee | 10 | 12 | 68 | 90 |
| iot_hue_lightchange | 9 | 12 | 69 | 90 |
| iot_hue_lightdim | 14 | 12 | 64 | 90 |
| iot_hue_lightoff | 10 | 11 | 70 | 91 |
| iot_hue_lighton | 11 | 14 | 66 | 91 |
| iot_hue_lightup | 10 | 9 | 70 | 89 |
| iot_wemo_off | 11 | 13 | 65 | 89 |
| iot_wemo_on | 6 | 8 | 46 | 60 |
| lists_createoradd | 19 | 16 | 115 | 150 |
| lists_query | 15 | 15 | 92 | 122 |
| lists_remove | 14 | 14 | 91 | 119 |
| medReminder_query | 18 | 17 | 108 | 143 |
| medReminder_set | 17 | 17 | 113 | 147 |
| medicalAppointment_query | 20 | 19 | 114 | 153 |
| medicalAppointment_set | 24 | 23 | 165 | 212 |
| menu_query | 15 | 17 | 113 | 145 |
| message_query | 21 | 20 | 140 | 181 |
| message_send | 26 | 24 | 162 | 212 |
| music_dislikeness | 10 | 9 | 69 | 88 |
| music_likeness | 11 | 9 | 71 | 91 |
| music_query | 22 | 23 | 135 | 180 |
| music_settings | 9 | 9 | 63 | 81 |
| news_query | 19 | 22 | 149 | 190 |
| play_audiobook | 12 | 15 | 93 | 120 |
| play_game | 12 | 11 | 67 | 90 |
| play_music | 41 | 45 | 271 | 357 |
| play_podcasts | 20 | 19 | 121 | 160 |
| play_radio | 20 | 20 | 115 | 155 |
| play_video | 15 | 15 | 90 | 120 |
| qa_currency | 12 | 9 | 69 | 90 |
| qa_definition | 19 | 23 | 147 | 189 |
| qa_factoid | 26 | 24 | 143 | 193 |
| qa_maths | 13 | 12 | 95 | 120 |
| qa_medicalService | 20 | 21 | 117 | 158 |
| qa_procedures | 36 | 33 | 220 | 289 |
| qa_service | 16 | 18 | 112 | 146 |
| qa_sports | 9 | 9 | 72 | 90 |
| qa_stock | 13 | 10 | 67 | 90 |
| recommendation_events | 22 | 22 | 143 | 187 |
| recommendation_locations | 23 | 24 | 157 | 204 |
| recommendation_movies | 18 | 23 | 139 | 180 |
| share_currentLocation | 15 | 13 | 92 | 120 |
| social_post | 19 | 20 | 112 | 151 |
| social_query | 14 | 14 | 96 | 124 |
| takeaway_order | 20 | 25 | 135 | 180 |
| takeaway_query | 7 | 9 | 50 | 66 |
| transport_directions | 28 | 24 | 181 | 233 |
| transport_query | 31 | 31 | 185 | 247 |
| transport_taxi | 26 | 22 | 132 | 180 |
| transport_ticket | 25 | 25 | 160 | 210 |
| transport_traffic | 15 | 17 | 88 | 120 |
| weather_query | 31 | 29 | 189 | 249 |
| Total | 1440 | 1440 | 9117 | 11997 |



