strombergnlp/shaj
收藏Hugging Face2022-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/shaj
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于检测阿尔巴尼亚语中侮辱性/攻击性语言的数据集。数据集遵循OffensEval的格式,包含三个子任务:A任务(是否为攻击性语言)、B任务(是否为有针对性的侮辱)、C任务(侮辱的目标类型)。数据集由专家生成,语言为阿尔巴尼亚语,数据来源于阿尔巴尼亚的YouTube和Instagram评论,并由阿尔巴尼亚母语者进行标注。数据集的大小在10K到100K之间,主要用于文本分类任务,特别是仇恨言论检测。
提供机构:
strombergnlp
原始信息汇总
数据集概述
数据集名称
- 名称: SHAJ
- 别名: Spoken Hate in the Albanian Jargon
数据集描述
- 语言:
- 主要语言: Albanian (
bcp47:sq-AL)
- 主要语言: Albanian (
- 许可证: cc-by-4.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别:
- 文本分类
- 具体任务:
- 仇恨言论检测
- 文本分类其他: 仇恨言论检测
数据集结构
- 数据实例:
- 包含字段:
id,text,subtask_a,subtask_b,subtask_c - 数据分割: 训练集包含11874个句子
- 包含字段:
数据集创建
- 采集理由: 收集数据以支持阿尔巴尼亚语中的攻击性言论检测
- 源数据:
- 数据来源: 阿尔巴尼亚YouTube和Instagram评论
- 语言生产者: 在特定阿尔巴尼亚社交媒体账号下评论的用户
- 标注:
- 标注过程: 采用OffensEval 2019的标注方案,由两位论文作者及其亲友进行标注
- 标注者: 阿尔巴尼亚语母语者,年龄20-60岁
使用数据注意事项
- 社会影响: 数据集包含攻击性语言
- 许可证: 数据集根据CC-BY 4.0许可证发布
附加信息
- 数据集管理: 由论文作者管理
- 贡献者: Leon Derczynski



