five

strombergnlp/shaj

收藏
Hugging Face2022-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/shaj
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于检测阿尔巴尼亚语中侮辱性/攻击性语言的数据集。数据集遵循OffensEval的格式,包含三个子任务:A任务(是否为攻击性语言)、B任务(是否为有针对性的侮辱)、C任务(侮辱的目标类型)。数据集由专家生成,语言为阿尔巴尼亚语,数据来源于阿尔巴尼亚的YouTube和Instagram评论,并由阿尔巴尼亚母语者进行标注。数据集的大小在10K到100K之间,主要用于文本分类任务,特别是仇恨言论检测。
提供机构:
strombergnlp
原始信息汇总

数据集概述

数据集名称

  • 名称: SHAJ
  • 别名: Spoken Hate in the Albanian Jargon

数据集描述

  • 语言:
    • 主要语言: Albanian (bcp47:sq-AL)
  • 许可证: cc-by-4.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 任务类别:
    • 文本分类
    • 具体任务:
      • 仇恨言论检测
      • 文本分类其他: 仇恨言论检测

数据集结构

  • 数据实例:
    • 包含字段: id, text, subtask_a, subtask_b, subtask_c
    • 数据分割: 训练集包含11874个句子

数据集创建

  • 采集理由: 收集数据以支持阿尔巴尼亚语中的攻击性言论检测
  • 源数据:
    • 数据来源: 阿尔巴尼亚YouTube和Instagram评论
    • 语言生产者: 在特定阿尔巴尼亚社交媒体账号下评论的用户
  • 标注:
    • 标注过程: 采用OffensEval 2019的标注方案,由两位论文作者及其亲友进行标注
    • 标注者: 阿尔巴尼亚语母语者,年龄20-60岁

使用数据注意事项

  • 社会影响: 数据集包含攻击性语言
  • 许可证: 数据集根据CC-BY 4.0许可证发布

附加信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作