ParsOffensive Dataset

github2025-05-13 更新2025-06-01 收录

下载链接：

https://github.com/golnaz76gh/pars-offensive-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含**ParsOffensive**数据集——一个手动标记的波斯语Instagram评论集合，旨在支持波斯语攻击性语言检测的研究。

This repository contains the **ParsOffensive** dataset—a manually annotated collection of Persian Instagram comments developed to support research on aggressive language detection in the Persian language.

创建时间：

2025-05-13

原始信息汇总

ParsOffensive 数据集概述

数据集基本信息

名称: ParsOffensive
语言: 波斯语
数据格式: Excel文件 (.xlsx)
数据量: 8,433条评论
标签类型: Offensive 或 Neutral
数据来源: Instagram评论，基于相关标签爬取

数据内容

覆盖主题: 政治、文化、体育、时事
标注过程: 由两名专业语言学家进行多阶段审核

文件结构

主数据文件: ParsOffensive.xlsx（位于根目录）

使用示例

python import pandas as pd df = pd.read_excel("ParsOffensive.xlsx")

数据集用途

波斯语冒犯性内容检测与审核
机器学习模型构建与基准测试
填补波斯语自然语言处理资源空白

引用信息

相关论文即将被IEEE收录，引用详情将在可用时更新

搜集汇总

数据集介绍

构建方式

在波斯语社交媒体内容分析领域，ParsOffensive数据集的构建采用了严谨的采集与标注流程。研究团队基于Instagram平台，通过Python爬虫技术针对政治、文化、体育等多元话题的相关标签进行评论抓取，共收集8,433条波斯语评论样本。为确保标注质量，由两位专业语言学家采用多阶段评审机制，将每条评论精准划分为'冒犯性'或'中性'两类标签，最终形成结构化的Excel格式数据集。

特点

作为波斯语自然语言处理领域的专项资源，该数据集具有显著的语料稀缺性和文化特异性。其评论内容源自真实的社交媒体交互场景，全面覆盖波斯文化语境下的敏感话题。二元分类标签体系经过语言学专家验证，为冒犯性语言检测任务提供了可靠的基准标准。数据以轻量化的Excel文件存储，兼顾了机器学习模型的训练需求和人工审核的便捷性。

使用方法

研究者可通过标准数据处理工具快速部署该数据集，例如使用Python的pandas库直接读取Excel文件进行模型训练。数据集适用于监督学习框架下的文本分类任务，特别在跨文化语境下的冒犯性语言识别、波斯语情感分析等领域具有应用价值。机器学习从业者可将其作为基准数据集，用于模型性能对比或迁移学习实验，推动波斯语内容审核系统的开发。

背景与挑战

背景概述

ParsOffensive数据集诞生于波斯语自然语言处理领域对 offensive language detection（冒犯性语言检测）研究的迫切需求。该数据集由专业研究团队于近年构建，聚焦于波斯语社交媒体中的冒犯性内容识别问题。研究人员从Instagram平台爬取政治、文化、体育等多元主题的评论数据，通过两位语言学专家的多轮标注，最终形成包含8433条标注样本的高质量语料库。作为波斯语领域首个专注于冒犯性语言检测的公开数据集，其出现有效填补了该语言资源匮乏的空白，为波斯语内容审核、情感分析等研究方向提供了重要基准。

当前挑战

构建波斯语冒犯性语言数据集面临双重挑战。在领域问题层面，波斯语复杂的形态结构和丰富的文化隐喻使得冒犯性表达具有高度语境依赖性，传统基于关键词的检测方法难以应对。数据构建过程中，研究人员需解决波斯语特有的书写变体标准化问题，同时处理社交媒体文本中的非正式表达和方言混杂现象。标注阶段要求语言学专家深入把握波斯文化中的敏感边界，对政治、宗教等特定领域的隐晦冒犯进行精准判别，这种主观性导致标注一致性的维护成为显著挑战。

常用场景

经典使用场景

在自然语言处理领域，ParsOffensive数据集为波斯语社交媒体内容的分析提供了重要支持。该数据集特别适用于训练和评估文本分类模型，尤其在识别具有攻击性的语言方面表现出色。研究人员可以利用这一数据集深入探索波斯语中攻击性语言的语言学特征及其分布规律，为社交媒体平台的自动化内容审核提供技术基础。

实际应用

在实际应用中，ParsOffensive数据集已被多个波斯语社交媒体平台用于开发内容过滤系统。这些系统能够自动识别并屏蔽具有攻击性的评论，显著提升了网络环境的健康度。政府部门和研究机构也利用该数据集监测网络言论趋势，为制定相关政策和开展社会研究提供数据支持。

衍生相关工作

基于ParsOffensive数据集，学术界已衍生出多项重要研究成果。其中包括改进的波斯语文本分类算法、跨语言攻击性语言检测框架，以及针对特定文化背景的语言分析模型。这些工作不仅扩展了原始数据集的应用范围，也为后续研究提供了有价值的参考和方法论指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集