five

INJONGO|自然语言处理数据集|跨语言学习数据集

收藏
arXiv2025-02-14 更新2025-02-18 收录
自然语言处理
跨语言学习
下载链接:
https://github.com/McGill-NLP/Injongo
下载链接
链接失效反馈
资源简介:
INJONGO是一个包含16种非洲语言及英语的多元文化意图检测和槽填充数据集,由麦吉尔大学等机构创建。该数据集涵盖了银行、家居、旅行、公用事业和餐饮等五个领域,每个非洲语言包含3200个标注实例。数据集通过提供CLINC数据集中的句子,并由母语者生成文化相关的句子和相关的槽实体来构建。该数据集旨在促进跨语言从英语到非洲低资源语言的转移学习,并改进下游性能。
提供机构:
麦吉尔大学, Mila, 德国萨尔兰大学, 南非SADiLaR, 多伦多大学, 安大略理工大学, 普林斯顿大学, 马凯雷大学, L3S研究中心, 帝国理工学院, 德usto大学, 达喀尔美利坚大学
创建时间:
2025-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
INJONGO数据集的构建始于为标注员提供来自CLINC数据集的指定意图类型的句子,要求他们创作出在非洲背景下文化相关的类似句子和相关的槽实体。数据收集过程分为两个阶段:非洲语言的句子征集和生成的句子的槽标注。INJONGO数据集涵盖了5个领域,40个意图,23个槽,以及每种非洲语言3,200个实例。
特点
INJONGO数据集是一个多文化、开源的基准数据集,涵盖了16种非洲语言,以及英语。该数据集的句子由本地演讲者在包括银行、旅行、家庭和餐饮在内的不同领域生成。数据集的特点在于其多语言和多文化性,旨在反映非洲文化的多样性。
使用方法
INJONGO数据集可用于评估意图检测和槽填充任务,特别是在低资源语言的对话AI中。使用该数据集时,可以将其用于微调多语言转换器模型和提示大型语言模型(LLMs)。实验表明,利用非洲文化句子可以提高跨语言从英语转移的能力。
背景与挑战
背景概述
在对话式人工智能领域,槽位填充和意图识别是自然语言理解模块中的关键组成部分。然而,当前的大规模基准数据集往往忽略了低资源语言的评估,并依赖于从英语基准数据集的翻译,因此主要反映了以西方为中心的概念。为了解决这一问题,研究人员Hao Yu等人于2025年创建了一个名为INJONGO的多元文化开源基准数据集,该数据集涵盖了16种非洲语言,包括由母语人士在各个领域(如银行、旅行、家庭和餐饮)生成的语句。该数据集旨在提供一个更全面、更具文化相关性的评估框架,以促进对非洲语言对话式人工智能的研究。INJONGO数据集的引入填补了非洲语言在对话式人工智能领域的空白,为开发更有效、更具文化意识的对话式人工智能系统提供了重要的数据资源。
当前挑战
尽管INJONGO数据集为非洲语言对话式人工智能研究提供了重要的资源,但仍面临一些挑战。首先,在低资源语言中,当前的大型语言模型(LLM)在槽位填充任务上表现不佳,例如GPT-4o的平均F1分数仅为26。其次,尽管意图识别的性能明显更好,平均准确率达到70.6%,但仍然落后于微调基线。此外,与英语相比,GPT-4o和微调基线在意图识别任务上的表现相似,准确率约为81%。这表明LLM在许多低资源非洲语言上的性能仍有待提高。为了进一步改善LLM的性能,需要更多的研究和开发工作。
常用场景
经典使用场景
INJONGO数据集主要用于意图检测和槽填充任务,这些任务在面向任务的对话系统中至关重要。该数据集包含16种非洲语言,涵盖了银行、旅行、家居和餐饮等多个领域。通过对多语言Transformer模型的微调和大型语言模型(LLM)的提示,实验结果表明,使用非洲文化的话语比西方中心的话语更能提高从英语到其他语言的跨语言迁移能力。
实际应用
INJONGO数据集的实际应用场景包括开发面向非洲语言的更有效和更具文化意识的对话AI系统。该数据集可以帮助研究人员和开发者训练和评估对话系统,以更好地理解和响应非洲语言用户的需求。
衍生相关工作
INJONGO数据集的发布促进了非洲语言NLP领域的研究,并衍生出许多相关的工作。例如,研究人员使用该数据集对多语言编码器进行微调,并研究了提示LLM在不同语言和任务上的性能。此外,该数据集还推动了跨语言学习和迁移能力的进一步研究,以改善低资源语言的下游性能。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

Thyroid Disease Data

该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录