INJONGO

Name: INJONGO
Creator: 麦吉尔大学, Mila, 德国萨尔兰大学, 南非SADiLaR, 多伦多大学, 安大略理工大学, 普林斯顿大学, 马凯雷大学, L3S研究中心, 帝国理工学院, 德usto大学, 达喀尔美利坚大学
Published: 2025-02-14 07:17:10
License: 暂无描述

arXiv2025-02-14 更新2025-02-18 收录

下载链接：

https://github.com/McGill-NLP/Injongo

下载链接

链接失效反馈

官方服务：

资源简介：

INJONGO是一个包含16种非洲语言及英语的多元文化意图检测和槽填充数据集，由麦吉尔大学等机构创建。该数据集涵盖了银行、家居、旅行、公用事业和餐饮等五个领域，每个非洲语言包含3200个标注实例。数据集通过提供CLINC数据集中的句子，并由母语者生成文化相关的句子和相关的槽实体来构建。该数据集旨在促进跨语言从英语到非洲低资源语言的转移学习，并改进下游性能。

INJONGO is a multilingual intent detection and slot filling dataset covering 16 African languages and English, developed by institutions including McGill University. This dataset includes five domains: banking, home, travel, utilities, and dining. Each African language contains 3,200 annotated instances. The dataset is constructed by utilizing sentences from the CLINC dataset, with native speakers generating culturally relevant sentences and corresponding slot entities. It aims to facilitate cross-lingual transfer learning from English to low-resource African languages and improve downstream task performance.

提供机构：

麦吉尔大学, Mila, 德国萨尔兰大学, 南非SADiLaR, 多伦多大学, 安大略理工大学, 普林斯顿大学, 马凯雷大学, L3S研究中心, 帝国理工学院, 德usto大学, 达喀尔美利坚大学

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

INJONGO数据集的构建始于为标注员提供来自CLINC数据集的指定意图类型的句子，要求他们创作出在非洲背景下文化相关的类似句子和相关的槽实体。数据收集过程分为两个阶段：非洲语言的句子征集和生成的句子的槽标注。INJONGO数据集涵盖了5个领域，40个意图，23个槽，以及每种非洲语言3,200个实例。

特点

INJONGO数据集是一个多文化、开源的基准数据集，涵盖了16种非洲语言，以及英语。该数据集的句子由本地演讲者在包括银行、旅行、家庭和餐饮在内的不同领域生成。数据集的特点在于其多语言和多文化性，旨在反映非洲文化的多样性。

使用方法

INJONGO数据集可用于评估意图检测和槽填充任务，特别是在低资源语言的对话AI中。使用该数据集时，可以将其用于微调多语言转换器模型和提示大型语言模型（LLMs）。实验表明，利用非洲文化句子可以提高跨语言从英语转移的能力。

背景与挑战

背景概述

在对话式人工智能领域，槽位填充和意图识别是自然语言理解模块中的关键组成部分。然而，当前的大规模基准数据集往往忽略了低资源语言的评估，并依赖于从英语基准数据集的翻译，因此主要反映了以西方为中心的概念。为了解决这一问题，研究人员Hao Yu等人于2025年创建了一个名为INJONGO的多元文化开源基准数据集，该数据集涵盖了16种非洲语言，包括由母语人士在各个领域（如银行、旅行、家庭和餐饮）生成的语句。该数据集旨在提供一个更全面、更具文化相关性的评估框架，以促进对非洲语言对话式人工智能的研究。INJONGO数据集的引入填补了非洲语言在对话式人工智能领域的空白，为开发更有效、更具文化意识的对话式人工智能系统提供了重要的数据资源。

当前挑战

尽管INJONGO数据集为非洲语言对话式人工智能研究提供了重要的资源，但仍面临一些挑战。首先，在低资源语言中，当前的大型语言模型（LLM）在槽位填充任务上表现不佳，例如GPT-4o的平均F1分数仅为26。其次，尽管意图识别的性能明显更好，平均准确率达到70.6%，但仍然落后于微调基线。此外，与英语相比，GPT-4o和微调基线在意图识别任务上的表现相似，准确率约为81%。这表明LLM在许多低资源非洲语言上的性能仍有待提高。为了进一步改善LLM的性能，需要更多的研究和开发工作。

常用场景

经典使用场景

INJONGO数据集主要用于意图检测和槽填充任务，这些任务在面向任务的对话系统中至关重要。该数据集包含16种非洲语言，涵盖了银行、旅行、家居和餐饮等多个领域。通过对多语言Transformer模型的微调和大型语言模型（LLM）的提示，实验结果表明，使用非洲文化的话语比西方中心的话语更能提高从英语到其他语言的跨语言迁移能力。

实际应用

INJONGO数据集的实际应用场景包括开发面向非洲语言的更有效和更具文化意识的对话AI系统。该数据集可以帮助研究人员和开发者训练和评估对话系统，以更好地理解和响应非洲语言用户的需求。

衍生相关工作

INJONGO数据集的发布促进了非洲语言NLP领域的研究，并衍生出许多相关的工作。例如，研究人员使用该数据集对多语言编码器进行微调，并研究了提示LLM在不同语言和任务上的性能。此外，该数据集还推动了跨语言学习和迁移能力的进一步研究，以改善低资源语言的下游性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集