rezacsedu/bn_hate_speech
收藏Hugging Face2024-01-10 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/rezacsedu/bn_hate_speech
下载链接
链接失效反馈官方服务:
资源简介:
Bengali Hate Speech Dataset是一个孟加拉语的数据集,包含从各种孟加拉语媒体来源收集的新闻文章,并根据文本中的仇恨类型进行分类。该数据集的创建旨在为资源匮乏的孟加拉语提供NLP任务支持,并作为多种分类任务的基准。数据集包含3418个样本,分为训练集。每个样本包含新闻文章的文本和对应的标签,标签包括‘Geopolitical’、‘Personal’、‘Political’、‘Religious’和‘Gender abusive’等类型。数据集由专家和众包人员共同标注,标注过程通过多数投票和Cohens Kappa来确保标注的一致性。
Bengali Hate Speech Dataset是一个孟加拉语的数据集,包含从各种孟加拉语媒体来源收集的新闻文章,并根据文本中的仇恨类型进行分类。该数据集的创建旨在为资源匮乏的孟加拉语提供NLP任务支持,并作为多种分类任务的基准。数据集包含3418个样本,分为训练集。每个样本包含新闻文章的文本和对应的标签,标签包括‘Geopolitical’、‘Personal’、‘Political’、‘Religious’和‘Gender abusive’等类型。数据集由专家和众包人员共同标注,标注过程通过多数投票和Cohens Kappa来确保标注的一致性。
提供机构:
rezacsedu
原始信息汇总
数据集概述
名称: Bengali Hate Speech Dataset
语言: 孟加拉语 (bn)
许可证: MIT
多语言性: 单语种
大小: 1K<n<10K
来源: 原始数据
任务类别: 文本分类
标签: 仇恨言论主题分类
数据集结构
数据实例
-
形式: 新闻文章及其关联标签
-
示例:
{"text": "রেন্ডিয়াকে পৃথীবির মানচিএ থেকে মুচে ফেলতে হবে", "label": "Geopolitical"}
数据字段
- text: 孟加拉语新闻文章文本
- label: 分类标签,包括
Geopolitical,Personal,Political,Religious, 或Gender abusive
数据分割
- 训练集: 3418个实例,数据大小为972631字节
数据集创建
来源数据
- 收集: 从孟加拉语维基百科、新闻文章、电视频道新闻转储、书籍、博客、体育门户和社交媒体收集
- 语言生产者: 孟加拉语作者和用户
标注
- 过程: 通过手动识别频繁出现的仇恨言论词汇和实体,使用175个常用辱骂词汇进行标注
- 标注者: 三名孟加拉语母语者和两名语言学家,经过专家审核和验证
个人和敏感信息
- 包含非常敏感和高度冒犯性的评论,涉及宗教、政治和性别背景
使用数据注意事项
社会影响
- 旨在改善孟加拉语中的仇恨言论检测,有助于减少网络仇恨言论的影响
偏见讨论
- 数据集通过强调Facebook页面和报纸来源收集,可能存在偏见
其他已知限制
- 包含种族主义、性别歧视、恐同和冒犯性评论,仅供研究使用
附加信息
数据集管理者
- Md. Rezaul Karim, Sumon Kanti Dey, Bharathi Raja Chakravarthi, John McCrae, Michael Cochez
许可证信息
- MIT许可证
引用信息
@inproceedings{karim2020BengaliNLP, title={Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network}, author={Karim, Md. Rezaul and Chakravarti, Bharathi Raja and P. McCrae, John and Cochez, Michael}, booktitle={7th IEEE International Conference on Data Science and Advanced Analytics (IEEE DSAA,2020)}, publisher={IEEE}, year={2020} }



