AraDhati+

Name: AraDhati+
Creator: 阿尔及利亚大学，阿尔及利亚
Published: 2025-08-27 23:20:12
License: 暂无描述

arXiv2025-08-27 更新2025-11-25 收录

下载链接：

https://github.com/Attia14/AraDhati

下载链接

链接失效反馈

官方服务：

资源简介：

AraDhati+数据集是一个用于阿拉伯文本数据主观性评估的全面数据集。该数据集通过利用现有的阿拉伯语数据集和集合（ASTD、LABR、HARD和SANAD）开发而成。该数据集为阿拉伯语言模型（XLM-RoBERTa、AraBERT和ArabianGPT）进行微调，以实现有效的主题性分类。此外，还尝试了集成决策方法来利用各个模型的优点。该方法在阿拉伯语主观性分类中取得了97.79%的准确率。结果表明，该方法在解决阿拉伯语资源有限带来的挑战方面非常有效。

提供机构：

阿尔及利亚大学，阿尔及利亚

创建时间：

2025-08-27

搜集汇总

数据集介绍

构建方式

在阿拉伯语自然语言处理资源匮乏的背景下，AraDhati+数据集通过整合多个现有语料库构建而成。研究团队首先对阿拉伯情感推文数据集进行类别平衡处理，采用过采样技术解决原始数据分布不均问题。随后引入外部资源进行数据增强，从LABR和HARD数据集中选取主观性文本，同时从SANAD新闻数据集的医学、体育和技术板块提取客观性内容，最终形成包含62,332条训练样本和15,584条测试样本的平衡数据集。整个构建过程还包含数据清洗、文本标准化和结构化存储等关键步骤。

特点

该数据集最显著的特点是涵盖多领域文本类型，包含社交媒体推文、书籍评论、酒店评价和新闻文章等不同体裁。数据标注体系具有多维特性，除基础的主客观标签外，还保留情感极性、领域分类和来源数据集等元信息。其语言构成呈现现代标准阿拉伯语与方言变体共存的特色，充分反映了阿拉伯语实际使用场景的复杂性。数据集规模达到近八万条样本，为阿拉伯语主观性分析提供了迄今最全面的基准资源。

使用方法

研究者可通过加载标准化CSV格式文件直接使用该数据集，其结构化设计支持灵活的数据划分策略。在具体应用中，建议采用80%-20%的标准划分比例进行模型训练与验证，并注意保持训练集与测试集的类别平衡。该数据集特别适用于微调预训练语言模型，如XLM-RoBERTa、AraBERT等架构，通过迁移学习提升阿拉伯语主观性分类性能。实验表明集成学习方法能有效融合不同模型优势，在数据集上可获得97.79%的准确率表现。

背景与挑战

背景概述

阿拉伯语作为全球第五大使用语言，其丰富的形态结构和方言多样性为自然语言处理带来独特挑战。AraDhati+数据集由阿尔及利亚吉达尔大学与宰因·阿舒尔大学的研究团队于2025年联合创建，旨在解决阿拉伯语主观性分析领域标注数据稀缺的核心问题。该数据集通过整合ASTD推特数据、LABR书评、HARD酒店评论和SANAD新闻语料，构建了包含主观与客观文本的平衡语料库，为阿拉伯语情感计算研究提供了重要基础。

当前挑战

在领域问题层面，阿拉伯语主观性分类需应对语言形态复杂性带来的词汇歧义，以及现代标准阿拉伯语与方言变体间的语义差异。数据构建过程中面临标注资源匮乏的困境，需通过重采样技术解决原始数据类别不平衡问题，并设计跨领域数据融合策略以覆盖新闻、社交媒体等多场景语言特征。此外，短文本语境信息缺失与混合情感表达样本的判别，进一步增加了模型训练的难度。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，AraDhati+数据集作为专门用于主观性评估的标注语料库，其经典应用场景集中于文本分类任务。该数据集通过整合推特推文、书籍评论、酒店评价和新闻文章等多领域文本，为研究者提供了丰富的语言特征样本。在主观性分类实验中，研究人员通常利用该数据集训练Transformer架构的预训练模型，以区分文本中客观事实陈述与主观观点表达，这种应用显著提升了阿拉伯语情感分析任务的基线性能。

解决学术问题

该数据集有效解决了阿拉伯语资源匮乏导致的语义理解瓶颈问题，为低资源语言的自然语言处理研究提供了重要支撑。通过融合ASTD、LABR、HARD和SANAD四个权威语料库，AraDhati+构建了规模达数万条标注样本的平衡数据集，显著缓解了传统方法因数据稀疏性导致的模型过拟合现象。其价值体现在为跨领域文本主观性分析建立了标准化评估基准，推动了阿拉伯语预训练语言模型在细粒度情感计算方向的发展。

衍生相关工作

该数据集的发布催生了多项创新性研究，其中最具代表性的是基于集成学习的多模型融合方法。研究者通过组合XLM-RoBERTa、AraBERT和ArabianGPT等预训练模型，在主观性分类任务中实现了97.79%的准确率突破。后续研究进一步探索了领域自适应技术，解决了模型在跨域文本分类中的泛化问题。这些工作不仅完善了阿拉伯语主观性分析的理论框架，也为其他低资源语言的语义计算研究提供了可复现的范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集