Bengali Hate Speech Dataset

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/rezacsedu/Bengali-Hate-Speech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于识别孟加拉语中的潜在仇恨言论，包括政治、宗教、个人、性别歧视、地缘政治等多种类型的仇恨言论。数据集通过从多个来源收集孟加拉语文本，并由语言学家和本地孟加拉语使用者进行标注，最终形成包含约3,418条标注为仇恨言论的语句。

This dataset is designed for the identification of potential hate speech in Bengali, encompassing various types such as political, religious, personal, sexist, and geopolitical hate speech. The dataset was compiled by collecting Bengali texts from multiple sources and was annotated by linguists and native Bengali speakers, culminating in a collection of approximately 3,418 statements labeled as hate speech.

创建时间：

2020-10-26

原始信息汇总

Bengali Hate Speech Dataset 概述

数据集版本

v1.0: 用于 "Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network" 论文，该论文在 7th IEEE International Conference on Data Science and Advanced Analytics (DSAA,2020) 中获得最佳应用论文奖。
v2.0: 用于 "DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced Bengali Language" 论文，该论文正在 IEEE Access 期刊审查中。

数据收集

v1.0: 数据来源于孟加拉国和印度的多种来源，包括新闻文章、书籍、博客、社交媒体等，总计约250万篇文章。
v2.0: 数据扩展了3,000个标记样本，主要从Facebook、YouTube评论和报纸中收集。

数据标注

v1.0: 由两名语言学家和三名母语为孟加拉语的人进行标注，采用半自动化方法标注了10,000条表达仇恨的语句。
v2.0: 由一名语言学家、一名母语为孟加拉语的人和一名NLP研究人员参与标注，采用多数投票法减少偏见。

数据集内容

v1.0: 包含3,418个样本，分为个人仇恨、政治仇恨、宗教仇恨、地缘政治仇恨和性别歧视仇恨。
v2.0: 样本被重新分类为政治仇恨、个人仇恨、地缘政治仇恨和宗教仇恨，其中性别歧视仇恨被归类为个人仇恨。

数据集使用

该数据集仅用于研究目的，使用时需自行承担风险。
使用数据集时，请引用相关论文。

数据集统计

v1.0: 统计了不同类型仇恨中最常用的词汇，并提供了样本分布。
v2.0: 通过Cohens Kappa统计评估了标注者之间的协议。

数据集链接

数据集可公开访问，链接为：Bengali Hate Speech Dataset。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程严谨而系统，首先从多个来源收集了大量的孟加拉语文章，包括孟加拉语维基百科、新闻文章、电视频道新闻、书籍、博客以及社交媒体等，形成了包含2.5亿篇文章的原始文本语料库。随后，通过引导式方法，由两名语言学家和三名母语者对文本进行标注，重点识别和标注了10,000条直接或间接表达仇恨言论的语句。标注过程中，使用了175个常见的孟加拉语仇恨词汇，并根据这些词汇的存在与否进行标签分配，最终将仇恨言论细分为政治、个人、性别、地缘政治和宗教等类别，确保了数据集的多样性和准确性。

特点

该数据集的显著特点在于其广泛的数据来源和精细的标注过程。数据集不仅涵盖了多种文本类型，如新闻、社交媒体和书籍，还通过多层次的标注确保了标签的准确性。此外，数据集的仇恨言论被细分为多个类别，如政治、个人、性别、地缘政治和宗教，这为研究不同类型的仇恨言论提供了丰富的资源。数据集的构建还采用了多数投票机制和Cohen's Kappa统计量来确保标注的一致性和可靠性。

使用方法

该数据集主要用于仇恨言论检测的研究，特别适用于孟加拉语的文本分析。研究者可以通过加载CSV文件来访问数据集，并利用其中的标签信息进行模型训练和评估。数据集的标签包括个人仇恨、政治仇恨、宗教仇恨、地缘政治仇恨和性别仇恨，研究者可以根据这些标签进行分类任务。此外，数据集还提供了常见的仇恨词汇列表，可用于进一步的文本分析和模型优化。在使用数据集时，建议引用相关的研究论文，以确保学术诚信和数据使用的透明性。

背景与挑战

背景概述

Bengali Hate Speech Dataset（孟加拉语仇恨言论数据集）是由Md. Rezaul Karim、Sumon Kanti Dey、Bharathi Raja Chakravarthi等研究人员在2020年创建的，旨在解决孟加拉语中的仇恨言论分类问题。该数据集的构建源于其在IEEE国际数据科学与高级分析会议（DSAA 2020）上发表的论文《基于多通道卷积-LSTM网络的低资源孟加拉语分类基准》，并荣获最佳应用论文奖。数据集的创建涉及从孟加拉语的多种来源（如新闻文章、社交媒体、书籍等）收集大量文本，并通过语言学家和本地孟加拉语使用者的标注，形成了包含3,418条仇恨言论样本的数据集。该数据集的发布对孟加拉语自然语言处理领域具有重要意义，尤其是在仇恨言论检测和分类方面，为相关研究提供了宝贵的资源。

当前挑战

Bengali Hate Speech Dataset的构建过程中面临了多项挑战。首先，仇恨言论的定义与普通冒犯性语言之间的界限模糊，尤其是在孟加拉语中，许多表达方式可能同时具有冒犯性和仇恨性，这使得标注工作异常复杂。其次，数据集的多样性来源带来了文本质量参差不齐的问题，部分文本可能包含噪声或不一致性，增加了数据清洗的难度。此外，不同地区的仇恨言论表达方式存在差异，如何统一标注标准也是一个重要挑战。最后，标注过程中的主观性问题通过多数投票和Cohen's Kappa统计量进行缓解，但仍需进一步优化以提高标注的一致性和准确性。

常用场景

经典使用场景

Bengali Hate Speech Dataset 的经典使用场景主要集中在针对孟加拉语中的仇恨言论进行分类和检测。该数据集通过收集来自多个来源的文本数据，包括新闻文章、社交媒体、博客等，并经过专业标注，提供了丰富的仇恨言论样本。研究者可以利用这些数据训练机器学习模型，特别是深度学习模型，以识别和分类不同类型的仇恨言论，如政治仇恨、宗教仇恨、性别歧视等。这种分类任务不仅有助于理解孟加拉语中的仇恨言论模式，还能为开发自动化的仇恨言论检测系统提供基础。

衍生相关工作

Bengali Hate Speech Dataset 的发布催生了一系列相关的经典工作。首先，基于该数据集的研究论文《Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network》在2020年IEEE国际数据科学与高级分析会议上获得了最佳应用论文奖，展示了其在低资源语言处理中的潜力。此外，后续的研究如《DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced Bengali Language》进一步扩展了数据集的应用，探索了可解释性在仇恨言论检测中的重要性。这些工作不仅推动了孟加拉语自然语言处理的发展，也为其他低资源语言的仇恨言论检测研究提供了借鉴。

数据集最近研究