omar-sharif/BAD-Bengali-Aggressive-Text-Dataset
收藏Hugging Face2022-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/omar-sharif/BAD-Bengali-Aggressive-Text-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为‘BAD’,是一个孟加拉语攻击性文本数据集,包含14158条文本。数据集采用两级标注:第一层次将文本标注为攻击性或非攻击性,第二层次将6807条攻击性文本进一步分类为宗教、政治、口头和性别攻击四类。该数据集的主要贡献包括提供了一个新的孟加拉语攻击性文本数据集、提供了数据的有用见解和详细统计、开发了一个加权集成模型用于识别和分类孟加拉语攻击性文本、进行了基准测试和错误分析。
提供机构:
omar-sharif
原始信息汇总
数据集概述
数据集名称
Novel Aggressive Text Dataset in Bengali (BAD)
数据集描述
BAD是一个针对孟加拉语的攻击性文本数据集,包含14158条文本,其中6807条被标记为攻击性文本,7351条为非攻击性文本。攻击性文本进一步细分为宗教、政治、言语和性别攻击四个类别。
数据集构成
- 总文本数:14158条
- 攻击性文本数:6807条
- 宗教攻击:2217条
- 政治攻击:2085条
- 言语攻击:2043条
- 性别攻击:462条
- 非攻击性文本数:7351条
数据集用途
用于识别和分类社交媒体上的攻击性文本,特别是针对孟加拉语的内容。
模型与方法
开发了一种基于m-BERT, distil-BERT, Bangla-BERT, XLM-R的加权集成模型,用于识别和分类攻击性孟加拉语文本。该模型通过重新调整参与分类器的softmax概率,根据它们在数据集上的先前表现,提高了分类性能。
性能指标
- 识别任务的加权f1-score:93.43%
- 分类任务的加权f1-score:93.11%
研究贡献
- 提供了一个新的孟加拉语攻击性文本数据集,包含详细的分类标注。
- 开发了一种加权集成模型,提高了攻击性文本的识别和分类准确性。
- 通过与其他机器学习和深度学习基线的比较,设定了性能基准。
- 进行了深入的错误分析,提供了定量和定性的分析结果,指出了系统可能的改进方向。



