victoriadreis/TuPY_dataset_multilabel
收藏Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/victoriadreis/TuPY_dataset_multilabel
下载链接
链接失效反馈官方服务:
资源简介:
葡萄牙语仇恨言论数据集(TuPy)是一个标注语料库,旨在促进使用机器学习(ML)和自然语言处理(NLP)技术开发高级仇恨言论检测模型。TuPy由2023年收集的10000条未发布的标注推文组成。数据集的标注是通过众包完成的,每条推文由三名不同的评估者进行标注,最终通过投票过程生成二进制矩阵。数据集的语言为巴西葡萄牙语,包含13个类别,每个类别用0或1表示是否存在攻击性或仇恨内容。
葡萄牙语仇恨言论数据集(TuPy)是一个标注语料库,旨在促进使用机器学习(ML)和自然语言处理(NLP)技术开发高级仇恨言论检测模型。TuPy由2023年收集的10000条未发布的标注推文组成。数据集的标注是通过众包完成的,每条推文由三名不同的评估者进行标注,最终通过投票过程生成二进制矩阵。数据集的语言为巴西葡萄牙语,包含13个类别,每个类别用0或1表示是否存在攻击性或仇恨内容。
提供机构:
victoriadreis
原始信息汇总
葡萄牙语仇恨言论数据集 (TuPy)
数据集概述
葡萄牙语仇恨言论数据集 (TuPy) 是一个标注语料库,旨在促进使用机器学习 (ML) 和自然语言处理 (NLP) 技术开发高级仇恨言论检测模型。TuPy 由 10000 条未发表的标注推文组成,收集于 2023 年。
数据集结构
数据实例
每个数据点包含推文文本(字符串)以及十三种类别,每种类别在不存在攻击性或仇恨内容时赋值为 0,在存在此类内容时赋值为 1。这些值代表了标注者对于推文中是否存在攻击性、仇恨、年龄歧视、贫富歧视、身体羞辱、能力歧视、LGBT 歧视、政治相关、种族歧视、宗教不容忍、性别歧视、仇外心理和其他内容的共识。
示例:
{ text: e tem pobre de direita imbecil que ainda defendia a manutenção da política de preços atrelada ao dólar link, aggressive: 1, hate: 1, ageism: 0, aporophobia: 1, body shame: 0, capacitism: 0, lgbtphobia: 0, political: 1, racism: 0, religious intolerance: 0, misogyny: 0, xenophobia: 0, other: 0 }
数据字段
- Text: 代表用户发布的匿名推文的字符串。
- aggressive: 二进制值 (0 或 1),表示标注者对于推文是否表现出攻击性语言的共识。
- hate: 二进制值 (0 或 1),表示标注者对于推文是否表现出仇恨的共识。
- ageism: 二进制值 (0 或 1),表示标注者对于推文是否表现出年龄歧视的共识。
- aporophobia: 二进制值 (0 或 1),表示标注者对于推文是否表现出贫富歧视的共识。
- body shame: 二进制值 (0 或 1),表示标注者对于推文是否表现出身体羞辱的共识。
- capacitism: 二进制值 (0 或 1),表示标注者对于推文是否表现出能力歧视的共识。
- lgbtphobia: 二进制值 (0 或 1),表示标注者对于推文是否表现出 LGBT 歧视的共识。
- political: 二进制值 (0 或 1),表示标注者对于推文是否表现出政治相关的共识。
- racism: 二进制值 (0 或 1),表示标注者对于推文是否表现出种族歧视的共识。
- religious intolerance: 二进制值 (0 或 1),表示标注者对于推文是否表现出宗教不容忍的共识。
- misogyny: 二进制值 (0 或 1),表示标注者对于推文是否表现出性别歧视的共识。
- xenophobia: 二进制值 (0 或 1),表示标注者对于推文是否表现出仇外心理的共识。
- other: 二进制值 (0 或 1),表示标注者对于推文是否表现出其他内容的共识。
语言
数据集使用的语言是巴西葡萄牙语,对应的 BCP-47 代码是 pt-BR。



