five

Naseza

收藏
github2025-10-15 更新2025-10-16 收录
下载链接:
https://github.com/amirivojdan/naseza
下载链接
链接失效反馈
官方服务:
资源简介:
Naseza(ناسزا)是一个精选的波斯语文本样本数据集,主要从专注于政治讨论和体育粉丝俱乐部的Telegram频道收集。该数据集旨在支持波斯语中的仇恨言论和攻击性语言检测任务,解决了波斯语NLP研究可用语言资源中的关键空白。数据集包含5,022个样本,其中1,963个为攻击性内容,3,059个为正常内容。

Naseza (ناسزا) is a curated Persian text sample dataset, primarily collected from Telegram channels focusing on political discussions and sports fan clubs. This dataset is designed to support hate speech and offensive language detection tasks in Persian, addressing critical gaps in existing language resources for Persian NLP research. The dataset contains 5,022 samples in total, among which 1,963 are offensive content and 3,059 are normal content.
创建时间:
2025-10-12
原始信息汇总

NASEZA数据集概述

数据集基本信息

  • 数据集名称: NASEZA / ناسزا
  • 完整名称: A Large-Scale Dataset for Persian Hate Speech and Offensive Language Detection
  • 数据规模: 5,022个样本
  • 语言: 波斯语
  • 数据来源: 主要从Telegram频道收集,聚焦于政治讨论和体育粉丝俱乐部

数据集构成

标签分布

标签类别 样本数量 描述
Offensive 1,963 包含针对个人、团队或群体的侮辱、诽谤或言语攻击性语言
Normal 3,059 包含中性、非攻击性或上下文良性的语言

数据格式

  • 格式: JSON
  • 字段:
    • id: 样本标识符
    • text: 波斯语文本内容
    • label: 标签类别(Normal或Offensive)
    • Comments: 注释字段

数据集特征

  • 专门用于波斯语仇恨言论和攻击性语言检测任务
  • 填补波斯语NLP研究中可用语言资源的空白
  • 所有样本均来自Telegram讨论中的非正式、口语化用户生成文本

许可信息

  • 许可证: CC0-1.0许可证(公共领域奉献)
  • 使用权限: 可自由使用、修改和重新分发数据,用于研究和商业目的

引用信息

DOI: https://doi.org/10.5281/zenodo.17355123

APA引用格式:

Amirivojdan, A. (2025). Naseza: A Large-Scale Dataset for Persian Hate Speech and Offensive Language Detection (Version v1.0.0) [Dataset]. Zenodo. https://doi.org/10.5281/zenodo.17355123

搜集汇总
数据集介绍
main_image_url
构建方式
在波斯语自然语言处理研究中,针对仇恨言论检测的资源稀缺问题,Naseza数据集通过系统化采集流程构建而成。研究团队从Telegram平台的政治讨论频道和体育粉丝社群中收集原始文本,采用人工标注与分类策略,将5022条波斯语样本划分为攻击性语言和正常语言两大类别。这种基于真实社交媒体的数据构建方式,有效保留了波斯语网络用语的非正式特征与语境复杂性。
特点
作为波斯语领域规模最大的仇恨言论检测数据集,Naseza呈现出鲜明的语料特征。其文本全部来源于即时通讯场景中的用户生成内容,涵盖了政治争议与体育竞技等易引发情绪表达的领域。数据集不仅标注了攻击性言论与正常交流的二元分类,更通过细粒度注释捕捉了侮辱性词汇、群体针对性攻击等语言现象,为研究波斯语网络暴力提供了丰富的语言学分析维度。
使用方法
该数据集采用标准化JSON格式组织,每条数据包含唯一标识符、原始文本和多层级标签注释。研究者可借助该资源开展波斯语文本分类模型的训练与评估,特别适用于仇恨言论检测、社交媒体内容审核等应用场景。数据集遵循CC0-1.0许可协议,支持学术研究与商业应用的无限制使用,用户可通过Zenodo平台获取完整数据并参考提供的引用规范进行学术标注。
背景与挑战
背景概述
随着社交媒体平台在全球范围内的普及,波斯语自然语言处理研究面临着资源匮乏的困境。Naseza数据集由Ahmad Amirivojdan于2025年创建,作为首个针对波斯语仇恨言论与冒犯性语言检测的大规模标注语料库,其样本主要采集自政治讨论与体育粉丝社群为主的Telegram频道。该数据集通过5022条标注样本填补了波斯语领域资源空白,为社交媒体内容审核机制及跨文化语言学研究提供了关键基础设施。
当前挑战
在仇恨言论检测领域,波斯语特有的语法结构与非正式表达方式增加了语义理解的复杂性。数据集构建过程中面临双重挑战:其一需克服波斯语 colloquial 文本中方言变体与隐晦侮辱表达的标注困难,其二在于平衡政治敏感内容与学术研究伦理的冲突。此外,Telegram平台动态更新的用户生成内容对数据持续采集与标注一致性提出了更高要求。
常用场景
经典使用场景
在波斯语自然语言处理领域,Naseza数据集为仇恨言论和冒犯性语言检测提供了关键支持。该数据集主要应用于文本分类任务,通过监督学习模型对来自Telegram政治讨论和体育粉丝群体的波斯语文本进行自动标注,区分正常内容与含有侮辱性词汇的冒犯性表达。其标注体系基于二元分类框架,为研究者构建基准模型提供了标准化评估基础。
解决学术问题
该数据集有效解决了波斯语资源稀缺导致的算法偏见问题,为低资源语言环境下的语义理解研究填补了重要空白。通过提供大规模人工标注样本,显著提升了仇恨言论检测模型在复杂语言现象中的泛化能力,特别是针对波斯语特有的文化语境和俚语表达。这一资源推动了跨语言仇恨检测领域的算法公平性研究,为构建包容性人工智能系统奠定数据基础。
衍生相关工作
基于该数据集衍生的研究已形成系列重要成果,包括融合字符级分类的深度神经网络架构和改进的数据增强策略。部分研究通过集成学习方法提升了模型对隐晦冒犯表达的识别精度,另有工作探索了波斯语与其他语言在仇恨言论表征方面的跨语言迁移学习。这些进展持续推动着低资源语言处理技术的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作