OPSD
收藏arXiv2024-04-08 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2404.05540v1
下载链接
链接失效反馈官方服务:
资源简介:
OPSD是一个针对波斯语社交媒体的攻击性语言数据集,由伊斯法罕理工大学电气与计算机工程系创建。该数据集包含约21,165条来自Instagram和Twitter的评论,分为有标注和无标注两部分。创建过程中,采用了精细的三阶段标注流程,并通过Cohen's kappa系数评估了标注者间的一致性。OPSD旨在通过自动化工具识别和分类社交媒体中的攻击性评论,以保护用户免受负面影响,特别是在儿童和敏感人群中。
OPSD is an offensive language dataset tailored for Persian social media, created by the Department of Electrical and Computer Engineering at Isfahan University of Technology. This dataset contains approximately 21,165 comments sourced from Instagram and Twitter, split into labeled and unlabeled subsets. During its development, a rigorous three-stage annotation pipeline was adopted, and inter-annotator agreement was evaluated using the Cohen's kappa coefficient. OPSD aims to identify and classify offensive comments on social media via automated tools, with the goal of protecting users, especially children and vulnerable populations, from negative impacts.
提供机构:
伊斯法罕理工大学电气与计算机工程系
创建时间:
2024-04-08
搜集汇总
数据集介绍

构建方式
社交媒体平台上仇恨言论与攻击性内容的泛滥已对用户心理健康与社会行为构成显著威胁,然而针对波斯语的此类数据集极为匮乏。为填补这一空白,OPSD数据集应运而生。其构建过程涵盖两大来源:从Instagram与Twitter两大主流平台分别爬取约5,000条与17,000条评论,同时通过攻击性关键词与话题标签收集约170,000条无标注波斯语数据。为确保标注质量,研究团队采用严谨的三阶段标注流程:首先将数据分为五部分,每部分由两名标注者独立标注并计算Cohen's kappa系数;若一致性低于75%,则进入第二阶段,通过共识会议修订标注指南并重新标注分歧数据;最终由第三名标注者依据多数投票解决剩余争议,形成最终标签。
特点
OPSD数据集具备多重鲜明特性。在标签体系上,它采用三类标注:POS(无攻击性内容)、T-NEG(针对特定个体或组织的攻击性评论)与NT-NEG(无明确目标的攻击性言论),并支持二分类与三分类任务。其标注可靠性通过Cohen's kappa系数验证,两阶段平均一致性从0.711提升至0.893,彰显标注过程的高信度。数据分布显示,正面评论(15,436条)占主导,而定向与非定向攻击性评论分别为5,075条与654条,呈现出显著的长尾分布。评论长度普遍偏短,符合社交媒体文本的典型特征。此外,数据集包含大量无标注数据,可用于半监督或掩码语言模型的预训练,进一步拓展其应用潜力。
使用方法
OPSD数据集的使用方法灵活多样,适配多种自然语言处理任务。在监督学习场景中,研究者可直接利用21,165条标注数据,按80%、10%、10%的比例划分为训练集、开发集与测试集,采用传统机器学习模型(如逻辑回归、支持向量机、随机森林)或基于Transformer的预训练语言模型(如ParsBERT、ALBERT-fa、RoBERTa-fa、XLM-RoBERTa)进行攻击性文本分类。实验表明,XLM-RoBERTa在二分类与三分类任务上分别达到89.9%与76.9%的F1分数。对于半监督或自监督学习,无标注子集(约170,000条)可用于掩码语言模型的额外训练,经此步骤后模型性能显著提升,例如RoBERTa在三分类任务上F1分数提升4.06%。研究者还可自定义超参数(如批次大小、学习率、序列长度)进行微调,或开展错误分析以优化模型。
背景与挑战
背景概述
社交媒体平台上的仇恨言论与攻击性评论日益泛滥,对用户心理健康与社会行为构成显著威胁。然而,现有资源多集中于英语领域,波斯语等低资源语言的相关数据集极为匮乏。为填补这一空白,伊朗伊斯法罕理工大学、伊斯法罕大学及谢里夫理工大学的研究人员于2024年联合构建了OPSD(Offensive Persian Social media Dataset)数据集。该数据集聚焦于波斯语社交媒体中的攻击性语言检测问题,通过从Instagram和Twitter两大平台采集约21,000条标注评论及170,000条无标注数据,为低资源语言下的自然语言处理研究提供了关键基础资源。OPSD的提出不仅推动了波斯语攻击性语言检测领域的发展,也为跨语言社会计算研究提供了重要参考。
当前挑战
OPSD数据集面临多重挑战。首先,在领域问题层面,攻击性语言检测需区分正向评论、定向负面评论与非定向负面评论,而社交媒体文本的短篇幅、口语化及隐含隐喻特性使得分类边界模糊,模型易因关键词频率偏差产生误判。其次,在构建过程中,数据采集需从海量内容中筛选含攻击性关键词的样本,但平台限制与数据噪声(如重复、非波斯语文本)增加了预处理难度;标注环节采用三阶段人工标注机制,尽管通过Cohen's Kappa系数确保一致性,但标注者主观认知差异与疲劳效应仍可能导致标签偏差,最终需依赖多数投票消歧。此外,无标注数据的质量与规模对预训练语言模型的掩码语言建模优化效果存在不确定性,进一步加剧了模型泛化能力的挑战。
常用场景
经典使用场景
在社交媒体的文本分析领域,OPSD数据集主要用于波斯语中攻击性语言的自动检测与分类。其经典使用场景涵盖了对社交媒体评论进行三分类(积极、定向负面、非定向负面)或二分类(攻击性与非攻击性)的监督学习任务。研究者借助该数据集,利用传统机器学习方法(如逻辑回归、支持向量机)与基于Transformer的预训练语言模型(如ParsBERT、XLM-RoBERTa)构建分类器,以识别并过滤波斯语文本中的仇恨言论与侮辱性内容。该数据集还支持通过掩码语言建模进行无监督预训练,从而提升模型在低资源语言上的泛化能力。
实际应用
在实际应用中,OPSD数据集为波斯语社交媒体平台的内容审核系统提供了关键训练数据。它可被部署于Instagram、Twitter等平台,自动识别并标记包含仇恨言论、侮辱或人身攻击的评论,从而辅助平台运营者快速过滤有害信息,保护用户尤其未成年人的心理健康。此外,该数据集还可用于开发面向波斯语用户的在线社区管理工具,帮助识别网络霸凌与恶意言论,营造更健康的网络交流环境。其应用场景还延伸至企业舆情监控,例如电信服务商可利用该技术自动分析用户投诉中的攻击性表达,以优化客户服务响应策略。
衍生相关工作
OPSD数据集的发布催生了一系列衍生研究,包括对波斯语攻击性语言检测的跨模型对比分析,以及将掩码语言建模与领域自适应相结合的微调策略。后续工作在此基础上探索了半监督学习与主动学习技术以降低标注成本,并扩展了数据集规模以覆盖更多社交平台与方言变体。此外,研究者借鉴OPSD的标注框架,构建了面向阿拉伯语、乌尔都语等相近低资源语言的攻击性语言数据集,推动了多语种社交内容安全研究的协同发展。该数据集也启发了针对攻击性语言细粒度分类(如区分种族歧视与性别歧视)的专项研究,进一步丰富了该领域的学术生态。
以上内容由遇见数据集搜集并总结生成



