MultiProSE

Name: MultiProSE
Creator: 沙特国王大学, 马杰玛大学, 伊玛目穆罕默德本沙特伊斯兰大学, 阿尔费萨尔大学
Published: 2025-02-12 19:35:20
License: 暂无描述

arXiv2025-02-12 更新2025-02-14 收录

下载链接：

https://github.com/xxx/xxx

下载链接

链接失效反馈

官方服务：

资源简介：

MultiProSE数据集是由沙特国王大学等机构创建的，包含8000篇现代标准阿拉伯语新闻文本，这些文本被标注为宣传、情感和情绪。该数据集扩展了现有的阿拉伯语宣传数据集ArPro，增加了情感和情绪的标注，旨在为阿拉伯语言模型的研究与开发提供支持，并促进对新闻媒体中不同观点维度间相互作用的深入理解。

The MultiProSE dataset was constructed by King Saud University and other institutions. It includes 8,000 news texts in Modern Standard Arabic (MSA), which are annotated with three dimensions: propaganda, sentiment, and emotion. This dataset extends the existing Arabic propaganda dataset ArPro by adding annotations for sentiment and emotion, aiming to support research and development of Arabic language models and promote in-depth understanding of the interactions between different dimensions of viewpoints in news media.

提供机构：

沙特国王大学, 马杰玛大学, 伊玛目穆罕默德本沙特伊斯兰大学, 阿尔费萨尔大学

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

MultiProSE数据集的构建基于现有的阿拉伯语宣传数据集ArPro，并对其进行了扩展，增加了情感和情绪的标注。该数据集包含8000篇经过标注的新闻文章，是迄今为止最大的宣传数据集。数据集的构建过程中，首先从阿拉伯语新闻领域收集了大量新闻文章，然后由三位具有博士学位的阿拉伯语母语者进行人工标注，包括宣传、情感和情绪三个方面。为了保证标注质量，采用了质量控制机制，包括黄金数据阶段、训练阶段、标注阶段和质量控制阶段。此外，还进行了多轮标注，并对标注结果进行了统计分析，以评估标注的可靠性和一致性。

特点

MultiProSE数据集的特点在于其多标签分类的特性，每个文本都被标注了宣传、情感和情绪三个方面。这使得该数据集不仅可以用于宣传检测任务，还可以用于情感分析和情绪识别任务。此外，MultiProSE数据集的标注质量较高，标注一致性较好，这为其在阿拉伯语自然语言处理领域的研究和应用提供了重要的资源。

使用方法

MultiProSE数据集的使用方法主要包括宣传检测、情感分析和情绪识别三个方面。在宣传检测方面，可以通过训练模型来预测文本是否包含宣传内容；在情感分析方面，可以通过训练模型来预测文本的情感倾向；在情绪识别方面，可以通过训练模型来预测文本表达的情绪。此外，MultiProSE数据集还可以用于研究不同意见维度之间的相互作用，例如宣传与情感、情感与情绪之间的关系。

背景与挑战

背景概述

MultiProSE数据集是首个针对阿拉伯语的多标签宣传、情感和情绪检测数据集。该数据集由沙特阿拉伯的国王沙特大学、麦加马贾玛大学、伊玛目穆罕默德·本·沙特伊斯兰大学和阿尔法萨尔大学的研究人员创建。该数据集的创建旨在填补阿拉伯语宣传检测资源的空白，并促进阿拉伯语言模型的研究与发展。MultiProSE数据集包含了8000篇经过标注的新闻文章，是迄今为止最大的宣传数据集。该数据集不仅标注了宣传内容，还标注了每篇文章的情感和情绪，使得研究者可以更全面地理解不同意见维度之间的相互作用。该数据集的发布对于推动阿拉伯语自然语言处理领域的研究具有重要意义。

当前挑战

MultiProSE数据集面临的挑战主要包括：1)阿拉伯语宣传检测领域的资源仍然非常有限，尤其是在情感和情绪维度方面；2)阿拉伯语的自然语言处理（NLP）面临着复杂的形态学、正字法歧义、语言资源有限以及方言差异等挑战；3)在构建MultiProSE数据集的过程中，研究人员遇到了标注时间限制、标注指南的制定、不同主题的标注难度、标点符号的缺失以及阿拉伯语和方言的标注困难等问题。为了确保标注质量，研究人员采用了严格的质量控制机制，包括金数据阶段、培训阶段、标注任务阶段和标注任务后的评估阶段。此外，研究人员还采用了多数投票方案来处理标注过程中的分歧。

常用场景

经典使用场景

MultiProSE数据集主要用于阿拉伯语新闻文本中的宣传、情感和情绪检测。它包含8,000篇标注的新闻文章，是目前最大的宣传数据集。该数据集通过多标签分类方式，对每篇文本进行宣传、情感和情绪标注，为研究者提供了丰富的资源，以深入理解新闻媒体中各种观点维度之间的相互作用。

实际应用

MultiProSE数据集的实际应用场景包括政治、医疗和经济等领域。通过检测和分析宣传内容，可以帮助政府和机构做出更明智的决策，防止虚假信息对公众造成负面影响。此外，该数据集还可以用于情感分析和情绪识别，为社交媒体平台提供更准确的内容监控和推荐服务。

衍生相关工作

MultiProSE数据集的发布推动了阿拉伯语自然语言处理领域的研究，衍生了一系列相关工作。例如，基于该数据集，研究者可以开发更精确的宣传检测模型、情感分析和情绪识别模型。此外，该数据集还可以用于跨语言模型的研究，提高多语言文本分析的能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集