DziriOFN Corpus

github2022-06-29 更新2024-05-31 收录

下载链接：

https://github.com/xprogramer/DziriOFN

下载链接

链接失效反馈

官方服务：

资源简介：

DziriOFN是一个专门用于检测阿尔及利亚方言阿拉伯语中攻击性语言的新数据集。该数据集从Facebook社交网络中爬取，包含了8.7k条文本，这些文本由五位不同的母语使用者手动标注为正常、攻击性和滥用。文本主要使用阿拉伯文字书写，部分使用拉丁文字（即Arabizi）。

DziriOFN is a novel dataset specifically designed for detecting offensive language in Algerian dialectal Arabic. This dataset was scraped from the Facebook social network and comprises 8.7k texts, which have been manually annotated by five different native speakers as normal, offensive, or abusive. The texts are primarily written in Arabic script, with some utilizing Latin script (i.e., Arabizi).

创建时间：

2021-11-27

原始信息汇总

DziriOFN Corpus (Dziri Offensive corpus) v1.0 概述

数据集描述

语言：Dziri（阿尔及利亚方言阿拉伯语）
用途：用于检测攻击性语言
数据来源：Facebook社交平台
文本数量：总计8,749条
文本类型：
- 攻击性文本：3,227条
- 辱骂性文本：1,334条
- 正常文本：4,188条
文本特征：部分文本使用阿拉伯字母，部分使用拉丁字母（Arabizi）

标注信息

标注者：五位母语为Dziri的标注者
标注一致性：
- 攻击性文本：1st vs 2nd = 2,341, 1st vs 3rd = 583, 2nd vs 3rd = 305
- 正常文本：1st vs 2nd = 3,449, 1st vs 3rd = 3,603, 2nd vs 3rd = 4,008
- 辱骂性文本：1st vs 2nd = 1,108, 1st vs 3rd = 85, 2nd vs 3rd = 141

模型评估

评估模型：支持向量机（SVM）、多项式朴素贝叶斯（Multinomial NB）、卷积神经网络（CNN）、双向长短期记忆网络（BiLSTM）、FastText
评估结果：
- 两类标签：
  - SVM：0.744
  - Multinomial NB：0.752
  - CNN：0.523
  - BiLSTM：0.520
  - FastText：0.716
- 三类标签：
  - SVM：0.669
  - Multinomial NB：0.662
  - CNN：0.347
  - BiLSTM：0.400
  - FastText：0.648

引用信息

作者：Boucherit, O., & Abainia, K.
出版年份：2022
论文标题：Offensive Language Detection in Under-resourced Algerian Dialectal Arabic Language
预印本链接：arXiv:2203.10024

搜集汇总

数据集介绍

构建方式

DziriOFN Corpus的构建过程体现了对阿尔及利亚方言阿拉伯语中冒犯性语言检测的深入研究。该数据集通过从Facebook社交媒体平台抓取文本，反映了阿尔及利亚社区常用的社交网络环境。数据集包含8,749条文本，这些文本由五位不同的母语者手动注释，分为正常、冒犯性和侮辱性三类。文本主要以阿拉伯文字书写，部分采用拉丁文字（即Arabizi），展示了阿尔及利亚方言的复杂社会语言环境。

特点

DziriOFN Corpus的特点在于其专注于资源匮乏的阿尔及利亚方言阿拉伯语，特别是冒犯性语言的检测。数据集不仅包含了丰富的文本样本，还通过多位注释者的协作确保了注释的准确性。此外，数据集的文本多样性体现在其包含了从社交媒体中提取的真实对话，这些对话反映了阿尔及利亚方言的多语言混合特性，如土耳其语、柏柏尔语、法语和西班牙语的借词现象。

使用方法

DziriOFN Corpus的使用方法主要围绕机器学习和深度学习模型的训练与评估。数据集提供了两标签（将冒犯性和侮辱性合并）和三标签的分类任务，支持多种分类器的实验，如支持向量机（SVM）、多项式朴素贝叶斯（Multinomial NB）、卷积神经网络（CNN）、双向长短期记忆网络（BiLSTM）和FastText。通过这些模型，研究者可以评估和比较不同算法在处理阿尔及利亚方言中冒犯性语言检测任务上的性能。

背景与挑战

背景概述

DziriOFN语料库是一个专注于阿尔及利亚方言阿拉伯语中冒犯性语言检测的新兴数据集，由Boucherit和Abainia于2022年创建。该数据集旨在解决阿尔及利亚方言这一资源匮乏语言中的冒犯性语言识别问题。阿尔及利亚方言因其复杂的语言环境而闻名，常涉及多种语言的代码转换和借词现象，如土耳其语、柏柏尔语、法语和西班牙语等。DziriOFN语料库从Facebook社交媒体平台爬取数据，共包含8,749条文本，涵盖正常、冒犯性和侮辱性三类内容，并由五位母语者进行人工标注。该数据集的发布为阿尔及利亚方言的自然语言处理研究提供了重要资源，推动了低资源语言处理领域的发展。

当前挑战

DziriOFN语料库在构建和应用过程中面临多重挑战。首先，阿尔及利亚方言的语言复杂性，尤其是代码转换和借词现象，增加了文本标注和模型训练的难度。其次，由于该语言资源匮乏，现有的自然语言处理工具和技术难以直接应用于此类方言数据。此外，数据标注过程中，不同标注者之间的标注一致性较低，尤其是在冒犯性和侮辱性文本的区分上，进一步增加了数据集的构建难度。在模型评估方面，尽管采用了多种机器学习和深度学习模型进行基线实验，但模型在两类和三分类任务中的表现仍有较大提升空间，尤其是在深度学习模型上的表现相对较弱，表明该领域仍需进一步研究和技术突破。

常用场景

经典使用场景

DziriOFN语料库主要用于阿尔及利亚方言阿拉伯语中的冒犯性语言检测研究。该语料库通过从Facebook社交媒体平台爬取数据，涵盖了8.7k条文本，这些文本经过五位母语者的手动标注，分为正常、冒犯性和侮辱性三类。由于其独特的语言背景，包括代码转换现象和多种语言的借词，DziriOFN为研究复杂社会语言学现象提供了宝贵的数据支持。

实际应用

在实际应用中，DziriOFN语料库可用于社交媒体平台的自动内容审核系统，帮助识别和过滤冒犯性和侮辱性言论。这对于维护在线社区的和谐环境具有重要意义。此外，该语料库还可用于开发多语言和方言支持的自然语言处理工具，提升这些工具在复杂语言环境中的表现。

衍生相关工作

DziriOFN语料库的发布推动了多篇相关研究工作的开展。例如，基于该语料库的研究提出了多种机器学习和深度学习模型，用于冒犯性语言检测。这些模型在二分类和三分类任务中表现出色，为后续研究提供了重要的参考。此外，该语料库还激发了更多关于方言阿拉伯语处理的研究，进一步丰富了该领域的研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集