rezacsedu/bn_hate_speech

Name: rezacsedu/bn_hate_speech
Creator: rezacsedu
Published: 2024-01-10 10:29:39
License: 暂无描述

Hugging Face2024-01-10 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/rezacsedu/bn_hate_speech

下载链接

链接失效反馈

官方服务：

资源简介：

Bengali Hate Speech Dataset是一个孟加拉语的数据集，包含从各种孟加拉语媒体来源收集的新闻文章，并根据文本中的仇恨类型进行分类。该数据集的创建旨在为资源匮乏的孟加拉语提供NLP任务支持，并作为多种分类任务的基准。数据集包含3418个样本，分为训练集。每个样本包含新闻文章的文本和对应的标签，标签包括‘Geopolitical’、‘Personal’、‘Political’、‘Religious’和‘Gender abusive’等类型。数据集由专家和众包人员共同标注，标注过程通过多数投票和Cohens Kappa来确保标注的一致性。

提供机构：

rezacsedu

原始信息汇总

数据集概述

名称: Bengali Hate Speech Dataset

语言: 孟加拉语 (bn)

许可证: MIT

多语言性: 单语种

大小: 1K<n<10K

来源: 原始数据

任务类别: 文本分类

标签: 仇恨言论主题分类

数据集结构

数据实例

形式: 新闻文章及其关联标签
示例:

{"text": "রেন্ডিয়াকে পৃথীবির মানচিএ থেকে মুচে ফেলতে হবে", "label": "Geopolitical"}

数据字段

text: 孟加拉语新闻文章文本
label: 分类标签，包括 Geopolitical, Personal, Political, Religious, 或 Gender abusive

数据分割

训练集: 3418个实例，数据大小为972631字节

数据集创建

来源数据

收集: 从孟加拉语维基百科、新闻文章、电视频道新闻转储、书籍、博客、体育门户和社交媒体收集
语言生产者: 孟加拉语作者和用户

标注

过程: 通过手动识别频繁出现的仇恨言论词汇和实体，使用175个常用辱骂词汇进行标注
标注者: 三名孟加拉语母语者和两名语言学家，经过专家审核和验证

个人和敏感信息

包含非常敏感和高度冒犯性的评论，涉及宗教、政治和性别背景

使用数据注意事项

社会影响

旨在改善孟加拉语中的仇恨言论检测，有助于减少网络仇恨言论的影响

偏见讨论

数据集通过强调Facebook页面和报纸来源收集，可能存在偏见

其他已知限制

包含种族主义、性别歧视、恐同和冒犯性评论，仅供研究使用

附加信息

数据集管理者

Md. Rezaul Karim, Sumon Kanti Dey, Bharathi Raja Chakravarthi, John McCrae, Michael Cochez

许可证信息

MIT许可证

引用信息

@inproceedings{karim2020BengaliNLP, title={Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network}, author={Karim, Md. Rezaul and Chakravarti, Bharathi Raja and P. McCrae, John and Cochez, Michael}, booktitle={7th IEEE International Conference on Data Science and Advanced Analytics (IEEE DSAA,2020)}, publisher={IEEE}, year={2020} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集