BD-SHS

Name: BD-SHS
Creator: 沙赫扎拉大学科学与技术学院
Published: 2022-06-01 18:10:15
License: 暂无描述

arXiv2022-06-01 更新2024-07-24 收录

下载链接：

https://github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media

下载链接

链接失效反馈

官方服务：

资源简介：

BD-SHS数据集是由沙赫扎拉大学科学与技术学院的研究团队创建的，旨在检测和分析孟加拉语在线仇恨言论。该数据集包含50,281条评论，其中24,156条被标记为仇恨言论。数据集通过三级层次化标注方案进行标注，以分析和理解不同社交语境中的仇恨言论。数据集的内容包括从社交媒体和在线流媒体站点收集的评论，涵盖多种社交语境和话题。创建过程中，研究团队遵循了严格的标注指南以减少人为标注偏差。该数据集的应用领域包括网络欺凌检测和攻击性语言识别，旨在通过现代自然语言处理和机器学习模型有效应对这一挑战。

The BD-SHS Dataset was developed by a research team from the School of Science and Technology at Shehzad University, with the core objective of detecting and analyzing online hate speech in the Bengali language. This dataset includes 50,281 comments in total, among which 24,156 are labeled as hate speech. It employs a three-level hierarchical annotation scheme to analyze and comprehend hate speech across various social contexts. The dataset's content comes from comments collected on social media and online streaming platforms, covering diverse social contexts and topics. During the dataset creation process, the research team adhered to strict annotation guidelines to minimize human annotation bias. This dataset can be applied in areas such as cyberbullying detection and offensive language recognition, with the aim of effectively addressing relevant challenges through modern natural language processing (NLP) and machine learning (ML) models.

提供机构：

沙赫扎拉大学科学与技术学院

创建时间：

2022-06-01

原始信息汇总

BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate Speech in Different Social Contexts

数据集概述

BD-SHS 是一个用于检测不同社交环境中在线孟加拉语仇恨言论的大型手动标注数据集。该数据集包含超过 50,200 条从在线社交网络站点爬取的攻击性评论，比现有的孟加拉语仇恨言论数据集至少大 60%。通过训练不同的自然语言处理（NLP）模型，该数据集的最佳模型达到了 91.0% 的 F1 分数。

数据集详情

数据集链接：BD-SHS 数据集

缩写说明：

HS => hate speech（仇恨言论）
NH => not hate speech（非仇恨言论）
ind => Individual（个人）

任务	任务描述	标签数量	标签	分类性质
TaskA	仇恨言论检测	02	`HS`, `NH`	二分类（HS 或 NH）
TaskB	仇恨言论目标检测	04	`ind`, `male`, `female`, `group`	多标签分类
TaskC	仇恨言论类型检测	04	`slander`, `religion`, `gender`, `callToViolence`	多标签分类

使用方法

从这里下载数据。创建一个名为 dataset 的文件夹，并将 train.csv、val.csv 和 test.csv 文件放置其中。
jupyter notebooks 文件夹包含 taskA-SVM、taskA-BiLSTM、taskB-SVM、taskB-BiLSTM、taskC-SVM、taskC-BiLSTM。
embedding 文件夹包含预训练的词嵌入 Informal FastText (IFT)。其他嵌入需要从指定来源下载。

环境要求

Python 3.8 或更高版本
pandas 1.3.5
numpy 1.21.5
nltk 3.2.5
scikit-learn 1.0.2
keras 2.8
gensim 3.6

搜集汇总

数据集介绍

构建方式

在社交媒体内容日益丰富的背景下，BD-SHS数据集的构建遵循了系统化的数据采集与标注流程。研究团队首先通过调查确定了孟加拉国自2017年以来的争议性话题，涵盖体育、娱乐、犯罪、政治、宗教等多个领域，以确保语言多样性。利用开源工具从Facebook、YouTube等平台爬取了超过10万条评论，通过Jaccard指数去除重复及高度相似内容，最终保留了50,281条评论用于标注。标注过程采用三级分层体系：第一级区分仇恨言论与非仇恨言论；第二级识别仇恨言论的目标个体或群体；第三级对仇恨言论类型进行细粒度分类。为确保标注质量，团队制定了详细的标注指南，并由50名标注员经过培训后完成，其中第一级标注采用三人多数表决制，Fleiss Kappa值为0.658，显示了适度的标注一致性。

特点

BD-SHS数据集在孟加拉语仇恨言论检测领域展现出显著特点。其规模达到50,281条评论，其中包含24,156条仇恨言论，是目前最大的孟加拉语仇恨言论数据集，较先前数据集扩大了至少50%。数据覆盖了多样化的社交语境，包括传统辱骂、宗教攻击、性别歧视及暴力煽动等多种类型，并首次在孟加拉语中引入了分层标注方案，能够同时支持仇恨言论识别、目标检测和类型分类等多任务学习。数据来源于真实的社交媒体环境，包含了拼写错误、混合方言及非正式表达等语言噪声，反映了实际应用场景的复杂性。此外，数据集公开提供了标注者一致性分数和详细的统计分布，增强了其可靠性和可复现性。

使用方法

BD-SHS数据集适用于自然语言处理与机器学习模型的训练与评估，主要支持三类任务。第一类为仇恨言论识别，即二分类任务，区分仇恨言论与非仇恨言论；第二类为多标签分类任务，识别仇恨言论的目标，包括个体、男性、女性及群体；第三类同样为多标签分类任务，对仇恨言论进行细粒度分类，如辱骂、宗教攻击、性别歧视及暴力煽动。研究人员可按70%、15%、15%的比例划分训练集、验证集和测试集，并利用词嵌入、TF-IDF等特征提取方法，结合SVM、Bi-LSTM等模型进行实验。数据集的噪声特性提示，使用基于非正式文本训练的嵌入模型可能获得更优性能，为模型优化提供了方向。此外，该数据集还可扩展应用于网络欺凌检测、攻击性语言分析等衍生研究。

背景与挑战

背景概述

随着社交媒体与在线流媒体平台的普及，用户生成内容中仇恨言论的泛滥已成为全球性社会问题。针对孟加拉语这一资源相对匮乏的语言，现有数据集在规模、语言多样性与标注质量上存在显著局限。BD-SHS数据集由沙贾拉尔科技大学等机构的研究团队于2021年创建，旨在构建一个涵盖多社会语境的大规模孟加拉语仇恨言论基准数据集。该数据集包含从社交媒体平台爬取的超过5万条评论，采用三层分级标注体系，首次在孟加拉语仇恨言论研究中引入目标对象与言论类型的细粒度分类。其规模较既有数据集扩大至少60%，并通过严格标注指南与人工审核机制提升数据可靠性，为孟加拉语自然语言处理模型在仇恨言论检测领域的泛化能力提供了关键资源支撑。

当前挑战

BD-SHS数据集致力于解决孟加拉语在线仇恨言论检测的核心挑战：首先，孟加拉语作为低资源语言，其社交媒体文本存在方言混杂、拼写错误与非标准缩写等噪声，导致传统自然语言处理模型难以准确捕捉语义特征；其次，仇恨言论的界定具有高度语境依赖性，需区分针对个体、群体或特定性别、宗教的言论类型，这对标注一致性与模型细粒度分类能力提出严峻考验。在构建过程中，研究团队面临多重挑战：需设计兼顾语言学多样性与话题平衡性的数据采集策略，避免因话题集中导致模型泛化能力下降；同时，通过分级标注方案与多轮人工审核降低标注者主观偏差，但注释冲突现象仍表明仇恨言论的边界判定存在固有复杂性。此外，基于正式文本训练的预训练词嵌入在非正式社交媒体文本上表现不佳，需专门构建适应噪声文本的嵌入模型以提升检测精度。

常用场景

经典使用场景

在自然语言处理领域，BD-SHS数据集为孟加拉语仇恨言论检测提供了基准平台。该数据集通过从社交媒体和在线流媒体平台爬取超过50,000条评论，构建了层次化标注体系，涵盖仇恨言论识别、目标群体分类及言论类型细分三个维度。研究者通常利用该数据集训练机器学习模型，如支持向量机与双向长短期记忆网络，以评估模型在复杂语言环境下的泛化能力，其中最佳模型F1分数达到91.0%。这一场景凸显了数据集在多语言低资源环境下的语言学价值，为跨文化仇恨言论分析奠定了数据基础。

衍生相关工作

BD-SHS数据集的发布催生了多项相关研究，尤其在跨语言仇恨言论检测领域。部分工作基于其层次化标注结构，扩展了多标签分类模型的设计，如结合词嵌入与字符级特征的双向注意力网络。另有研究借鉴其非正式文本训练策略，构建了针对社交媒体噪声文本的专用词向量模型，提升了低资源语言环境下语义表征的鲁棒性。该数据集还启发了针对特定攻击类型（如宗教歧视或性别暴力）的细粒度分析框架，推动了孟加拉语自然语言处理在伦理人工智能方向的交叉探索。

数据集最近研究