BANTH
收藏arXiv2024-10-18 更新2024-10-22 收录
下载链接:
http://arxiv.org/abs/2410.13281v2
下载链接
链接失效反馈官方服务:
资源简介:
BANTH数据集是由Penta Global Limited创建的,专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350个样本,来源于YouTube评论,每个样本都标记了多个目标群体,反映了区域人口统计特征。数据集的创建过程包括从YouTube API抓取评论、数据过滤、清洗和多轮注释验证。BANTH数据集的应用领域主要集中在仇恨言论的检测和分类,旨在解决低资源语言中仇恨言论自动检测的挑战。
The BANTH dataset, developed by Penta Global Limited, is specifically tailored for the detection and classification of hate speech in transliterated Bengali. It consists of 37,350 samples sourced from YouTube comments, with each sample annotated with multiple target groups that reflect regional demographic characteristics. The dataset creation workflow includes scraping comments via the YouTube API, data filtering, data cleaning, and multi-round annotation validation. Primarily applied in hate speech detection and classification, the BANTH dataset is designed to tackle the challenges of automatic hate speech detection in low-resource languages.
提供机构:
Penta Global Limited
创建时间:
2024-10-17
搜集汇总
数据集介绍

构建方式
BANTH数据集通过从YouTube视频评论中抓取用户评论构建,涵盖了‘新闻与政治’、‘人物与博客’和‘娱乐’三大类视频,共计26个频道。数据收集时间从2020年1月到2024年7月,涵盖了COVID-19疫情和孟加拉国配额改革运动等重大事件。数据经过多重过滤和清洗,包括去除超链接、重复评论和个人隐私信息。随后,数据由四名标注员和两名领域专家进行多标签标注,确保每条评论至少由三名标注员独立标注,最终由领域专家审核以确保标注的准确性和一致性。
使用方法
BANTH数据集适用于多标签仇恨言论检测任务,可用于训练和评估各种自然语言处理模型。研究者可以通过进一步预训练的Transformer编码器或基于翻译的大型语言模型提示策略来利用该数据集。此外,数据集还提供了详细的标注指南和统计信息,帮助研究者更好地理解和使用数据。
背景与挑战
背景概述
在数字化空间中,转写文本的普及突显了在英语之外的语言中检测和分类仇恨言论的必要性,特别是在低资源语言中。随着在线讨论可能加剧基于目标群体(如性别、宗教和出身)的歧视,多标签分类仇恨内容有助于理解仇恨动机并增强内容管理。尽管先前的努力集中在单语或二元仇恨分类任务上,但尚未有研究解决转写孟加拉语中的多标签仇恨言论分类问题。因此,我们引入了BANTH,这是首个包含37.3k样本的多标签转写孟加拉语仇恨言论数据集。该数据集的样本来源于YouTube评论,每个实例都标有一个或多个目标群体,反映了区域人口统计特征。通过在转写孟加拉语文本上进一步预训练,我们建立了基于变压器编码器的新基线,并提出了一种基于翻译的大型语言模型提示策略。实验表明,我们进一步预训练的编码器在BANTH数据集上达到了最先进的性能,而我们的基于翻译的提示策略在零样本设置中优于其他策略。BANTH的引入不仅填补了孟加拉语仇恨言论研究的关键空白,还为未来探索低资源语言中的代码混合和多标签分类挑战奠定了基础。
当前挑战
BANTH数据集面临的挑战包括:1) 解决领域问题的挑战,如图像分类中的ImageNet数据集。2) 构建过程中遇到的挑战,如处理转写孟加拉语中的不一致拼写和结构、缺乏语法规则、与英语混合以及丢失特定脚本特征等问题。此外,尽管标准实践采用了基于变压器的编码器进行自动化仇恨言论检测,但最近大型语言模型的流行使其成为仇恨言论自然语言处理中的可行选项,特别是在零样本设置中。然而,大多数进展集中在英语和其他高资源语言上,转写孟加拉语在仇恨或类似仇恨言论检测以及基于大型语言模型的方法方面的研究非常有限。
常用场景
经典使用场景
BANTH数据集在检测和分类转写孟加拉语中的仇恨言论方面具有经典应用场景。该数据集通过从YouTube评论中收集的37.3k样本,为多标签仇恨言论分类提供了丰富的资源。其主要应用在于通过多标签分类技术,识别和理解仇恨言论背后的动机,从而增强内容审核机制。此外,BANTH数据集还通过进一步预训练的Transformer编码器和基于翻译的大型语言模型提示策略,建立了新的基线,展示了在零样本设置下的卓越性能。
解决学术问题
BANTH数据集解决了在低资源语言中检测和分类仇恨言论的常见学术研究问题。它填补了转写孟加拉语多标签仇恨言论分类研究的空白,为未来探索代码混合和多标签分类挑战奠定了基础。该数据集不仅提升了对仇恨言论动机的理解,还为跨语言和跨文化的内容审核提供了新的视角和方法。
实际应用
BANTH数据集在实际应用中具有广泛的前景,特别是在社交媒体和在线内容审核领域。通过识别和分类仇恨言论,平台可以更有效地管理用户生成内容,减少基于性别、宗教、政治立场等身份特征的歧视和暴力行为。此外,该数据集还可用于开发和优化自动化内容审核工具,提升用户体验和社区安全。
数据集最近研究
最新研究方向
在多标签仇恨言论检测领域,BANTH数据集的最新研究方向聚焦于跨语言和多标签分类的挑战。随着数字空间中转写文本的激增,研究人员正致力于开发能够识别和分类低资源语言中仇恨言论的模型。BANTH数据集不仅填补了孟加拉语仇恨言论研究的空白,还为未来探索其他代表性不足语言中的代码混合和多标签分类问题奠定了基础。通过进一步预训练和翻译提示策略,研究者们正在提升模型的性能,特别是在零样本设置下的表现,这对于构建更安全和包容的数字平台具有重要意义。
相关研究论文
- 1BANTH: A Multi-label Hate Speech Detection Dataset for Transliterated BanglaPenta Global Limited · 2024年
以上内容由遇见数据集搜集并总结生成



