AraDhati+
收藏arXiv2025-08-27 更新2025-11-25 收录
下载链接:
https://github.com/Attia14/AraDhati
下载链接
链接失效反馈官方服务:
资源简介:
AraDhati+数据集是一个用于阿拉伯文本数据主观性评估的全面数据集。该数据集通过利用现有的阿拉伯语数据集和集合(ASTD、LABR、HARD和SANAD)开发而成。该数据集为阿拉伯语言模型(XLM-RoBERTa、AraBERT和ArabianGPT)进行微调,以实现有效的主题性分类。此外,还尝试了集成决策方法来利用各个模型的优点。该方法在阿拉伯语主观性分类中取得了97.79%的准确率。结果表明,该方法在解决阿拉伯语资源有限带来的挑战方面非常有效。
提供机构:
阿尔及利亚大学,阿尔及利亚
创建时间:
2025-08-27
搜集汇总
数据集介绍

构建方式
在阿拉伯语自然语言处理资源匮乏的背景下,AraDhati+数据集通过整合多个现有语料库构建而成。研究团队首先对阿拉伯情感推文数据集进行类别平衡处理,采用过采样技术解决原始数据分布不均问题。随后引入外部资源进行数据增强,从LABR和HARD数据集中选取主观性文本,同时从SANAD新闻数据集的医学、体育和技术板块提取客观性内容,最终形成包含62,332条训练样本和15,584条测试样本的平衡数据集。整个构建过程还包含数据清洗、文本标准化和结构化存储等关键步骤。
特点
该数据集最显著的特点是涵盖多领域文本类型,包含社交媒体推文、书籍评论、酒店评价和新闻文章等不同体裁。数据标注体系具有多维特性,除基础的主客观标签外,还保留情感极性、领域分类和来源数据集等元信息。其语言构成呈现现代标准阿拉伯语与方言变体共存的特色,充分反映了阿拉伯语实际使用场景的复杂性。数据集规模达到近八万条样本,为阿拉伯语主观性分析提供了迄今最全面的基准资源。
使用方法
研究者可通过加载标准化CSV格式文件直接使用该数据集,其结构化设计支持灵活的数据划分策略。在具体应用中,建议采用80%-20%的标准划分比例进行模型训练与验证,并注意保持训练集与测试集的类别平衡。该数据集特别适用于微调预训练语言模型,如XLM-RoBERTa、AraBERT等架构,通过迁移学习提升阿拉伯语主观性分类性能。实验表明集成学习方法能有效融合不同模型优势,在数据集上可获得97.79%的准确率表现。
背景与挑战
背景概述
阿拉伯语作为全球第五大使用语言,其丰富的形态结构和方言多样性为自然语言处理带来独特挑战。AraDhati+数据集由阿尔及利亚吉达尔大学与宰因·阿舒尔大学的研究团队于2025年联合创建,旨在解决阿拉伯语主观性分析领域标注数据稀缺的核心问题。该数据集通过整合ASTD推特数据、LABR书评、HARD酒店评论和SANAD新闻语料,构建了包含主观与客观文本的平衡语料库,为阿拉伯语情感计算研究提供了重要基础。
当前挑战
在领域问题层面,阿拉伯语主观性分类需应对语言形态复杂性带来的词汇歧义,以及现代标准阿拉伯语与方言变体间的语义差异。数据构建过程中面临标注资源匮乏的困境,需通过重采样技术解决原始数据类别不平衡问题,并设计跨领域数据融合策略以覆盖新闻、社交媒体等多场景语言特征。此外,短文本语境信息缺失与混合情感表达样本的判别,进一步增加了模型训练的难度。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,AraDhati+数据集作为专门用于主观性评估的标注语料库,其经典应用场景集中于文本分类任务。该数据集通过整合推特推文、书籍评论、酒店评价和新闻文章等多领域文本,为研究者提供了丰富的语言特征样本。在主观性分类实验中,研究人员通常利用该数据集训练Transformer架构的预训练模型,以区分文本中客观事实陈述与主观观点表达,这种应用显著提升了阿拉伯语情感分析任务的基线性能。
解决学术问题
该数据集有效解决了阿拉伯语资源匮乏导致的语义理解瓶颈问题,为低资源语言的自然语言处理研究提供了重要支撑。通过融合ASTD、LABR、HARD和SANAD四个权威语料库,AraDhati+构建了规模达数万条标注样本的平衡数据集,显著缓解了传统方法因数据稀疏性导致的模型过拟合现象。其价值体现在为跨领域文本主观性分析建立了标准化评估基准,推动了阿拉伯语预训练语言模型在细粒度情感计算方向的发展。
衍生相关工作
该数据集的发布催生了多项创新性研究,其中最具代表性的是基于集成学习的多模型融合方法。研究者通过组合XLM-RoBERTa、AraBERT和ArabianGPT等预训练模型,在主观性分类任务中实现了97.79%的准确率突破。后续研究进一步探索了领域自适应技术,解决了模型在跨域文本分类中的泛化问题。这些工作不仅完善了阿拉伯语主观性分析的理论框架,也为其他低资源语言的语义计算研究提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成



