Dataset-of-Urdu-Abusive-Language

github2024-03-16 更新2024-05-31 收录

下载链接：

https://github.com/abrarAhmed-Real/Dataset-of-Urdu-Abuisve-Language

下载链接

链接失效反馈

官方服务：

资源简介：

公开的乌尔都语辱骂语言数据集，数据集通过使用特定乌尔都语辱骂关键词的Tweepy API抓取推文，并由乌尔都语母语者进行标注。数据集经过预处理和清洗，移除了不需要的元素如停用词、标签、提及和URL。数据集平衡，推文长度在10到256个字符之间。

An open dataset of Urdu abusive language, collected by scraping tweets using the Tweepy API with specific Urdu abusive keywords, and annotated by native Urdu speakers. The dataset has been preprocessed and cleaned, removing unnecessary elements such as stop words, hashtags, mentions, and URLs. The dataset is balanced, with tweet lengths ranging between 10 to 256 characters.

创建时间：

2023-07-25

原始信息汇总

数据集概述

数据集名称

Dataset-of-Urdu-Abusive-Language

数据来源

数据集通过Tweepy API使用特定的乌尔都语辱骂关键词从Twitter上抓取，并由乌尔都语母语者进行标注。

数据预处理

数据集已经过预处理和清洗，移除了停用词、话题标签、提及和URL等不必要元素。数据集是平衡的，推文长度介于10至256个字符之间。

数据集统计

总样本数：12071
辱骂性推文：5930
中性推文：6141

引用信息

若在研究或项目中使用此数据集，请引用以下论文： Khan, A., Ahmed, A., Jan, S., Bilal, M. and Zuhairi, M.F., 2024. Abusive Language Detection in Urdu Text: Leveraging Deep Learning and Attention Mechanism. IEEE Access.

搜集汇总

数据集介绍

构建方式

该数据集通过Tweepy API抓取包含特定乌尔都语辱骂关键词的推文，并由乌尔都语母语者进行标注。在预处理阶段，数据集经过清洗，去除了停用词、标签、提及和URL等无关内容，确保推文长度在10到256个字符之间，最终构建了一个平衡的数据集。

使用方法

该数据集可用于乌尔都语辱骂语言检测模型的训练与评估。研究人员可通过加载数据集，利用深度学习或传统机器学习方法进行模型开发。数据集的平衡性和预处理特性使其能够直接应用于实验，无需额外清洗。使用该数据集时，建议引用相关论文，以确保学术规范性和数据来源的透明性。

背景与挑战

背景概述

随着社交媒体平台的普及，网络上的辱骂性语言问题日益严重，尤其是在非英语语言环境中。针对这一问题，Khan等人于2024年创建了“Dataset-of-Urdu-Abusive-Language”数据集，旨在为乌尔都语中的辱骂性语言检测提供研究基础。该数据集由乌尔都语母语者标注，包含12,071条推文，其中辱骂性推文与中性推文的比例接近平衡。通过使用Tweepy API抓取特定关键词的推文，并经过预处理去除停用词、标签、提及和URL等无关信息，该数据集为乌尔都语自然语言处理领域的研究提供了重要支持。其核心研究问题聚焦于如何利用深度学习和注意力机制有效检测乌尔都语中的辱骂性语言，相关成果已发表在IEEE Access期刊上。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，乌尔都语作为一种形态丰富的语言，其辱骂性表达形式多样且语境依赖性强，这为标注和模型训练带来了复杂性。其次，社交媒体数据的动态性和噪声问题使得数据抓取和预处理变得尤为困难，尤其是在去除无关信息的同时保留语义完整性。此外，数据集的平衡性虽然经过精心设计，但在实际应用中仍需应对类别不平衡和模型泛化能力不足的问题。最后，如何将深度学习与注意力机制有效结合，以提升乌尔都语辱骂性语言检测的准确性和鲁棒性，仍是当前研究的主要技术挑战。

常用场景

经典使用场景

在自然语言处理领域，Dataset-of-Urdu-Abusive-Language数据集被广泛用于乌尔都语文本中的辱骂性语言检测研究。通过使用该数据集，研究人员能够训练和评估各种机器学习模型，特别是深度学习模型，以识别和分类乌尔都语社交媒体文本中的辱骂性内容。

解决学术问题

该数据集解决了乌尔都语文本中辱骂性语言检测的学术研究问题。由于乌尔都语资源的稀缺性，该数据集为研究人员提供了一个宝贵的资源，使他们能够深入探讨乌尔都语文本中的语言模式，并开发出有效的检测算法。这不仅填补了乌尔都语自然语言处理领域的空白，还为多语言文本分析提供了新的视角。

实际应用

在实际应用中，Dataset-of-Urdu-Abusive-Language数据集被用于社交媒体平台的自动内容审核系统。通过识别和过滤乌尔都语文本中的辱骂性内容，这些系统能够有效减少网络暴力，提升用户体验，并维护健康的在线社区环境。此外，该数据集还可用于教育领域，帮助开发语言学习工具，提高学生对乌尔都语语言规范的理解。

数据集最近研究