five

Dataset-of-Urdu-Abusive-Language

收藏
github2024-03-16 更新2024-05-31 收录
下载链接:
https://github.com/abrarAhmed-Real/Dataset-of-Urdu-Abuisve-Language
下载链接
链接失效反馈
官方服务:
资源简介:
公开的乌尔都语辱骂语言数据集,数据集通过使用特定乌尔都语辱骂关键词的Tweepy API抓取推文,并由乌尔都语母语者进行标注。数据集经过预处理和清洗,移除了不需要的元素如停用词、标签、提及和URL。数据集平衡,推文长度在10到256个字符之间。

An open dataset of Urdu abusive language, collected by scraping tweets using the Tweepy API with specific Urdu abusive keywords, and annotated by native Urdu speakers. The dataset has been preprocessed and cleaned, removing unnecessary elements such as stop words, hashtags, mentions, and URLs. The dataset is balanced, with tweet lengths ranging between 10 to 256 characters.
创建时间:
2023-07-25
原始信息汇总

数据集概述

数据集名称

Dataset-of-Urdu-Abusive-Language

数据来源

数据集通过Tweepy API使用特定的乌尔都语辱骂关键词从Twitter上抓取,并由乌尔都语母语者进行标注。

数据预处理

数据集已经过预处理和清洗,移除了停用词、话题标签、提及和URL等不必要元素。数据集是平衡的,推文长度介于10至256个字符之间。

数据集统计

  • 总样本数:12071
  • 辱骂性推文:5930
  • 中性推文:6141

引用信息

若在研究或项目中使用此数据集,请引用以下论文: Khan, A., Ahmed, A., Jan, S., Bilal, M. and Zuhairi, M.F., 2024. Abusive Language Detection in Urdu Text: Leveraging Deep Learning and Attention Mechanism. IEEE Access.

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Tweepy API抓取包含特定乌尔都语辱骂关键词的推文,并由乌尔都语母语者进行标注。在预处理阶段,数据集经过清洗,去除了停用词、标签、提及和URL等无关内容,确保推文长度在10到256个字符之间,最终构建了一个平衡的数据集。
使用方法
该数据集可用于乌尔都语辱骂语言检测模型的训练与评估。研究人员可通过加载数据集,利用深度学习或传统机器学习方法进行模型开发。数据集的平衡性和预处理特性使其能够直接应用于实验,无需额外清洗。使用该数据集时,建议引用相关论文,以确保学术规范性和数据来源的透明性。
背景与挑战
背景概述
随着社交媒体平台的普及,网络上的辱骂性语言问题日益严重,尤其是在非英语语言环境中。针对这一问题,Khan等人于2024年创建了“Dataset-of-Urdu-Abusive-Language”数据集,旨在为乌尔都语中的辱骂性语言检测提供研究基础。该数据集由乌尔都语母语者标注,包含12,071条推文,其中辱骂性推文与中性推文的比例接近平衡。通过使用Tweepy API抓取特定关键词的推文,并经过预处理去除停用词、标签、提及和URL等无关信息,该数据集为乌尔都语自然语言处理领域的研究提供了重要支持。其核心研究问题聚焦于如何利用深度学习和注意力机制有效检测乌尔都语中的辱骂性语言,相关成果已发表在IEEE Access期刊上。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,乌尔都语作为一种形态丰富的语言,其辱骂性表达形式多样且语境依赖性强,这为标注和模型训练带来了复杂性。其次,社交媒体数据的动态性和噪声问题使得数据抓取和预处理变得尤为困难,尤其是在去除无关信息的同时保留语义完整性。此外,数据集的平衡性虽然经过精心设计,但在实际应用中仍需应对类别不平衡和模型泛化能力不足的问题。最后,如何将深度学习与注意力机制有效结合,以提升乌尔都语辱骂性语言检测的准确性和鲁棒性,仍是当前研究的主要技术挑战。
常用场景
经典使用场景
在自然语言处理领域,Dataset-of-Urdu-Abusive-Language数据集被广泛用于乌尔都语文本中的辱骂性语言检测研究。通过使用该数据集,研究人员能够训练和评估各种机器学习模型,特别是深度学习模型,以识别和分类乌尔都语社交媒体文本中的辱骂性内容。
解决学术问题
该数据集解决了乌尔都语文本中辱骂性语言检测的学术研究问题。由于乌尔都语资源的稀缺性,该数据集为研究人员提供了一个宝贵的资源,使他们能够深入探讨乌尔都语文本中的语言模式,并开发出有效的检测算法。这不仅填补了乌尔都语自然语言处理领域的空白,还为多语言文本分析提供了新的视角。
实际应用
在实际应用中,Dataset-of-Urdu-Abusive-Language数据集被用于社交媒体平台的自动内容审核系统。通过识别和过滤乌尔都语文本中的辱骂性内容,这些系统能够有效减少网络暴力,提升用户体验,并维护健康的在线社区环境。此外,该数据集还可用于教育领域,帮助开发语言学习工具,提高学生对乌尔都语语言规范的理解。
数据集最近研究
最新研究方向
在自然语言处理领域,针对乌尔都语(Urdu)的滥用语言检测研究正逐渐成为热点。随着社交媒体平台的普及,滥用语言问题日益严重,尤其是在多语言环境中,乌尔都语作为南亚地区的重要语言之一,其滥用语言的检测与处理显得尤为重要。Dataset-of-Urdu-Abusive-Language数据集通过爬取特定关键词的推文,并由乌尔都语母语者进行标注,为研究者提供了高质量的训练数据。该数据集经过预处理,去除了停用词、标签、提及和URL等无关信息,确保了数据的平衡性和一致性。近年来,基于深度学习和注意力机制的模型在该数据集上的应用取得了显著进展,不仅提升了检测的准确性,还为多语言滥用语言检测提供了新的思路。这一研究方向不仅有助于净化网络环境,还对跨文化沟通和社交媒体管理具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作