strombergnlp/shaj

Name: strombergnlp/shaj
Creator: strombergnlp
Published: 2022-06-14 14:03:37
License: 暂无描述

Hugging Face2022-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/strombergnlp/shaj

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于检测阿尔巴尼亚语中侮辱性/攻击性语言的数据集。数据集遵循OffensEval的格式，包含三个子任务：A任务（是否为攻击性语言）、B任务（是否为有针对性的侮辱）、C任务（侮辱的目标类型）。数据集由专家生成，语言为阿尔巴尼亚语，数据来源于阿尔巴尼亚的YouTube和Instagram评论，并由阿尔巴尼亚母语者进行标注。数据集的大小在10K到100K之间，主要用于文本分类任务，特别是仇恨言论检测。

提供机构：

strombergnlp

原始信息汇总

数据集概述

数据集名称

名称: SHAJ
别名: Spoken Hate in the Albanian Jargon

数据集描述

语言:
- 主要语言: Albanian (bcp47:sq-AL)
许可证: cc-by-4.0
多语言性: 单语种
大小: 10K<n<100K
来源: 原始数据
任务类别:
- 文本分类
- 具体任务:
  - 仇恨言论检测
  - 文本分类其他: 仇恨言论检测

数据集结构

数据实例:
- 包含字段: id, text, subtask_a, subtask_b, subtask_c
- 数据分割: 训练集包含11874个句子

数据集创建

采集理由: 收集数据以支持阿尔巴尼亚语中的攻击性言论检测
源数据:
- 数据来源: 阿尔巴尼亚YouTube和Instagram评论
- 语言生产者: 在特定阿尔巴尼亚社交媒体账号下评论的用户
标注:
- 标注过程: 采用OffensEval 2019的标注方案，由两位论文作者及其亲友进行标注
- 标注者: 阿尔巴尼亚语母语者，年龄20-60岁

使用数据注意事项

社会影响: 数据集包含攻击性语言
许可证: 数据集根据CC-BY 4.0许可证发布

附加信息

数据集管理: 由论文作者管理
贡献者: Leon Derczynski

5,000+

优质数据集

54 个

任务类型

进入经典数据集