AraDiCE|阿拉伯方言数据集|自然语言处理数据集

arXiv2024-09-18 更新2024-09-19 收录

阿拉伯方言

自然语言处理

下载链接：

https://arxiv.org/pdf/anonymous.com

下载链接

链接失效反馈

资源简介：

AraDiCE数据集由卡塔尔计算研究所创建，旨在评估大型语言模型（LLMs）在阿拉伯方言和文化理解方面的能力。该数据集包含约45,000条经过人工后编辑的样本，涵盖现代标准阿拉伯语（MSA）及其方言。数据集的创建过程结合了机器翻译和人工后编辑，确保了数据的高质量和多样性。AraDiCE数据集的应用领域主要集中在低资源阿拉伯方言的自然语言处理任务，旨在解决LLMs在处理阿拉伯方言和文化差异方面的不足。

提供机构：

卡塔尔计算研究所

创建时间：

2024-09-18

AI搜集汇总

数据集介绍

构建方式

AraDiCE数据集通过机器翻译（MT）与人工后期编辑相结合的方式构建，涵盖了现代标准阿拉伯语（MSA）及其方言。具体而言，研究团队首先使用MT技术将英语数据翻译成MSA，然后再将MSA翻译成不同的阿拉伯方言，如黎凡特（Levantine）和埃及（Egyptian）方言。随后，通过人工后期编辑（PEMT）对翻译结果进行流畅性和准确性的校正，确保数据集的质量和多样性。这一过程不仅涉及语言的转换，还包括文化背景的考量，以确保数据集在方言和文化理解上的全面性。

特点

AraDiCE数据集的显著特点在于其综合性和文化敏感性。首先，该数据集不仅包含现代标准阿拉伯语，还涵盖了多种阿拉伯方言，特别是低资源方言，填补了大型语言模型（LLMs）在阿拉伯方言上的空白。其次，AraDiCE引入了首个细粒度的文化评估基准，旨在评估LLMs在海湾、埃及和黎凡特地区的文化意识，提供了对LLMs在文化背景下的表现进行评估的新维度。此外，数据集的构建过程中采用了人工后期编辑，确保了数据的高质量和语言的自然流畅性。

使用方法

AraDiCE数据集主要用于评估大型语言模型（LLMs）在阿拉伯方言和文化理解方面的能力。研究者可以通过该数据集进行方言理解、生成和翻译任务的评估，以及文化知识的细粒度评估。具体使用方法包括：首先，加载数据集并根据任务需求选择相应的子集；其次，设计评估指标，如F1分数、BLEU分数等，以量化模型的表现；最后，通过对比不同模型在数据集上的表现，分析其在方言和文化理解上的优势与不足，从而指导模型的进一步优化和训练。

背景与挑战

背景概述

AraDiCE数据集由Qatar Computing Research Institute和University of New Brunswick的研究人员于近期创建，旨在填补大型语言模型（LLMs）在阿拉伯方言和多元文化能力评估方面的空白。该数据集通过机器翻译结合人工后编辑的方式，生成了七个合成数据集，涵盖现代标准阿拉伯语（MSA）及其方言。AraDiCE数据集的核心研究问题在于评估LLMs在方言理解和生成方面的能力，特别是针对低资源阿拉伯方言。该数据集的推出对阿拉伯语NLP领域具有重要影响力，因为它首次引入了细粒度的文化意识基准，为LLM评估提供了新的维度。

当前挑战

AraDiCE数据集在构建过程中面临多项挑战。首先，阿拉伯语及其方言在LLMs中的代表性严重不足，这使得数据集的创建和评估变得复杂。其次，构建过程中需要通过机器翻译生成合成数据，并进行人工后编辑，这一过程既耗时又需要高度专业化的技能。此外，数据集还需解决方言识别、生成和翻译中的显著挑战，以及在文化意识评估中捕捉区域文化细微差别的问题。这些挑战共同构成了AraDiCE数据集在推进阿拉伯语NLP研究中的主要障碍。

常用场景

经典使用场景

AraDiCE数据集在评估大型语言模型（LLMs）的方言和文化能力方面具有经典应用场景。该数据集通过引入七个合成数据集，涵盖了现代标准阿拉伯语（MSA）及其方言，用于评估LLMs在方言理解和生成方面的表现。此外，AraDiCE还首次引入了细粒度的文化评估基准，旨在评估模型在海湾、埃及和黎凡特地区的文化意识，为LLM评估提供了新的维度。

衍生相关工作

AraDiCE数据集的引入催生了一系列相关工作，包括对阿拉伯语特定模型的比较分析，如Jais和AceGPT，以及对多语言模型的评估。此外，该数据集还促进了关于模型在处理阿拉伯方言和文化差异方面能力的深入研究，推动了低资源语言处理技术的发展。

数据集最近研究

相关研究论文

1
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs卡塔尔计算研究所 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

红外谱图数据库

收集整理红外谱图实验手册等数据，建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中，原始红外谱图都进行了数字化处理，从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图，也可以提交谱图/谱峰数据，以检索与之相似的谱图数据，以协助进行谱图鉴定。

国家基础学科公共科学数据中心收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录

NSL-KDD

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本，解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件，以及包含数据集列名的文件。

github 收录