burmese-hatespeech

Hugging Face2024-09-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/simbolo-ai/burmese-hatespeech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Facebook收集的缅甸语评论和帖子，主要关注仇恨言论的实例。数据集包含约16.8k条记录，涵盖了针对个人和群体的各种属性的攻击性言论，如种族、政治和个人特征。

创建时间：

2024-09-06

原始信息汇总

数据集概述

数据集简介

该数据集包含从Facebook评论和帖子中收集的文本数据，主要关注仇恨言论的实例。数据集中的文本为缅甸语，涵盖了针对个人和群体的各种属性的攻击性言论，如种族、政治和个人特征。数据集包含约16.8k行数据，反映了特定在线社区中普遍存在的毒性语言的多样性。

数据集内容

语言: 缅甸语
数据来源: Facebook评论和帖子
数据规模: 约16.8k行
数据类型: 仇恨言论
目标: 识别和分析针对个人和群体的仇恨言论

免责声明

数据集中可能包含不符合上述仇恨言论定义的毒性数据，如粗俗语言。

贡献者

主要贡献者: Sa Phyo Thu Htet
其他贡献者: Ei Thandar Aung, Naing Linn Phyo, Yang Ni Linn Lat, Chaw Su Thwe Thiha Nyein, Hnin Aye Thant, Ye Bhone Lin
数据收集者: Sa Phyo Thu Htet, Simbolo的学生, Data Science and Machine Learning Club的成员, University of Technology, Yatanarpon Cyber City, Myanmar

搜集汇总

数据集介绍

构建方式

该数据集通过从Facebook的评论和帖子中收集文本数据构建而成，主要聚焦于仇恨言论的实例。数据以缅甸语为主，涵盖了针对个人和群体的广泛攻击性及仇恨性表达，涉及种族、政治和个人特征等多种属性。数据收集工作由缅甸Yatanarpon Cyber City科技大学的数据科学与机器学习俱乐部成员及学生共同完成，确保了数据的多样性和代表性。

特点

该数据集包含了约16.8k条数据，反映了缅甸语在线社区中仇恨言论的多样性。数据涵盖了针对不同群体的攻击性语言，包括但不限于种族、政治立场和个人特征等。尽管数据集中的部分内容可能包含粗俗词汇，但这些内容并不完全符合仇恨言论的定义，因此在使用时需谨慎处理。

使用方法

该数据集适用于研究缅甸语在线社区中的仇恨言论现象，可用于训练和评估自然语言处理模型，特别是针对仇恨言论检测的任务。研究人员可以通过分析数据集中的文本模式，识别和分类不同类型的仇恨言论。在使用时，建议结合上下文进行深入分析，以避免误判或过度泛化。

背景与挑战

背景概述

缅甸仇恨言论数据集（burmese-hatespeech）由缅甸仰光科技大学数据科学与机器学习俱乐部的学生和成员共同创建，主要贡献者包括Sa Phyo Thu Htet等人。该数据集于近年发布，旨在捕捉和分析缅甸语社交媒体平台上的仇恨言论现象。数据集包含约16.8k条从Facebook评论和帖子中收集的文本数据，涵盖了针对种族、政治、个人特征等多种属性的攻击性语言。这一数据集为研究缅甸语环境下的仇恨言论提供了重要资源，推动了自然语言处理领域在低资源语言中的发展。

当前挑战

该数据集面临的主要挑战包括：首先，仇恨言论的定义和识别具有高度主观性，不同文化背景下对仇恨言论的理解可能存在显著差异，这为数据标注和模型训练带来了困难。其次，缅甸语作为一种低资源语言，缺乏成熟的自然语言处理工具和资源，导致数据预处理和特征提取的复杂性增加。此外，数据集中可能包含大量非标准化的语言表达和网络用语，进一步增加了文本分析的难度。最后，数据收集过程中可能涉及隐私和伦理问题，如何在保护用户隐私的同时确保数据的可用性，是构建此类数据集时必须权衡的关键问题。

常用场景

经典使用场景

在自然语言处理领域，burmese-hatespeech数据集被广泛应用于仇恨言论检测模型的训练与评估。研究人员利用该数据集中的缅甸语文本数据，开发算法以识别和分类在线社交平台上的仇恨言论，从而帮助自动过滤和监控有害内容。

衍生相关工作

基于burmese-hatespeech数据集，多项经典研究工作得以展开。例如，研究人员开发了多语言仇恨言论检测模型，扩展了该数据集的应用范围。此外，一些研究还探讨了仇恨言论与特定社会问题的关联，如种族歧视和性别不平等，为政策制定和社会干预提供了数据支持。

数据集最近研究