five

rezacsedu/bn_hate_speech

收藏
Hugging Face2024-01-10 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/rezacsedu/bn_hate_speech
下载链接
链接失效反馈
官方服务:
资源简介:
Bengali Hate Speech Dataset是一个孟加拉语的数据集,包含从各种孟加拉语媒体来源收集的新闻文章,并根据文本中的仇恨类型进行分类。该数据集的创建旨在为资源匮乏的孟加拉语提供NLP任务支持,并作为多种分类任务的基准。数据集包含3418个样本,分为训练集。每个样本包含新闻文章的文本和对应的标签,标签包括‘Geopolitical’、‘Personal’、‘Political’、‘Religious’和‘Gender abusive’等类型。数据集由专家和众包人员共同标注,标注过程通过多数投票和Cohens Kappa来确保标注的一致性。

Bengali Hate Speech Dataset是一个孟加拉语的数据集,包含从各种孟加拉语媒体来源收集的新闻文章,并根据文本中的仇恨类型进行分类。该数据集的创建旨在为资源匮乏的孟加拉语提供NLP任务支持,并作为多种分类任务的基准。数据集包含3418个样本,分为训练集。每个样本包含新闻文章的文本和对应的标签,标签包括‘Geopolitical’、‘Personal’、‘Political’、‘Religious’和‘Gender abusive’等类型。数据集由专家和众包人员共同标注,标注过程通过多数投票和Cohens Kappa来确保标注的一致性。
提供机构:
rezacsedu
原始信息汇总

数据集概述

名称: Bengali Hate Speech Dataset

语言: 孟加拉语 (bn)

许可证: MIT

多语言性: 单语种

大小: 1K<n<10K

来源: 原始数据

任务类别: 文本分类

标签: 仇恨言论主题分类

数据集结构

数据实例

  • 形式: 新闻文章及其关联标签

  • 示例:

    {"text": "রেন্ডিয়াকে পৃথীবির মানচিএ থেকে মুচে ফেলতে হবে", "label": "Geopolitical"}

数据字段

  • text: 孟加拉语新闻文章文本
  • label: 分类标签,包括 Geopolitical, Personal, Political, Religious, 或 Gender abusive

数据分割

  • 训练集: 3418个实例,数据大小为972631字节

数据集创建

来源数据

  • 收集: 从孟加拉语维基百科、新闻文章、电视频道新闻转储、书籍、博客、体育门户和社交媒体收集
  • 语言生产者: 孟加拉语作者和用户

标注

  • 过程: 通过手动识别频繁出现的仇恨言论词汇和实体,使用175个常用辱骂词汇进行标注
  • 标注者: 三名孟加拉语母语者和两名语言学家,经过专家审核和验证

个人和敏感信息

  • 包含非常敏感和高度冒犯性的评论,涉及宗教、政治和性别背景

使用数据注意事项

社会影响

  • 旨在改善孟加拉语中的仇恨言论检测,有助于减少网络仇恨言论的影响

偏见讨论

  • 数据集通过强调Facebook页面和报纸来源收集,可能存在偏见

其他已知限制

  • 包含种族主义、性别歧视、恐同和冒犯性评论,仅供研究使用

附加信息

数据集管理者

  • Md. Rezaul Karim, Sumon Kanti Dey, Bharathi Raja Chakravarthi, John McCrae, Michael Cochez

许可证信息

  • MIT许可证

引用信息

@inproceedings{karim2020BengaliNLP, title={Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network}, author={Karim, Md. Rezaul and Chakravarti, Bharathi Raja and P. McCrae, John and Cochez, Michael}, booktitle={7th IEEE International Conference on Data Science and Advanced Analytics (IEEE DSAA,2020)}, publisher={IEEE}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作