victoriadreis/TuPY_dataset_multilabel

Name: victoriadreis/TuPY_dataset_multilabel
Creator: victoriadreis
Published: 2023-12-26 20:39:54
License: 暂无描述

Hugging Face2023-12-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/victoriadreis/TuPY_dataset_multilabel

下载链接

链接失效反馈

官方服务：

资源简介：

葡萄牙语仇恨言论数据集（TuPy）是一个标注语料库，旨在促进使用机器学习（ML）和自然语言处理（NLP）技术开发高级仇恨言论检测模型。TuPy由2023年收集的10000条未发布的标注推文组成。数据集的标注是通过众包完成的，每条推文由三名不同的评估者进行标注，最终通过投票过程生成二进制矩阵。数据集的语言为巴西葡萄牙语，包含13个类别，每个类别用0或1表示是否存在攻击性或仇恨内容。

提供机构：

victoriadreis

原始信息汇总

葡萄牙语仇恨言论数据集 (TuPy)

数据集概述

葡萄牙语仇恨言论数据集 (TuPy) 是一个标注语料库，旨在促进使用机器学习 (ML) 和自然语言处理 (NLP) 技术开发高级仇恨言论检测模型。TuPy 由 10000 条未发表的标注推文组成，收集于 2023 年。

数据集结构

数据实例

每个数据点包含推文文本（字符串）以及十三种类别，每种类别在不存在攻击性或仇恨内容时赋值为 0，在存在此类内容时赋值为 1。这些值代表了标注者对于推文中是否存在攻击性、仇恨、年龄歧视、贫富歧视、身体羞辱、能力歧视、LGBT 歧视、政治相关、种族歧视、宗教不容忍、性别歧视、仇外心理和其他内容的共识。

示例：

{ text: e tem pobre de direita imbecil que ainda defendia a manutenção da política de preços atrelada ao dólar link, aggressive: 1, hate: 1, ageism: 0, aporophobia: 1, body shame: 0, capacitism: 0, lgbtphobia: 0, political: 1, racism: 0, religious intolerance: 0, misogyny: 0, xenophobia: 0, other: 0 }

数据字段

Text: 代表用户发布的匿名推文的字符串。
aggressive: 二进制值 (0 或 1)，表示标注者对于推文是否表现出攻击性语言的共识。
hate: 二进制值 (0 或 1)，表示标注者对于推文是否表现出仇恨的共识。
ageism: 二进制值 (0 或 1)，表示标注者对于推文是否表现出年龄歧视的共识。
aporophobia: 二进制值 (0 或 1)，表示标注者对于推文是否表现出贫富歧视的共识。
body shame: 二进制值 (0 或 1)，表示标注者对于推文是否表现出身体羞辱的共识。
capacitism: 二进制值 (0 或 1)，表示标注者对于推文是否表现出能力歧视的共识。
lgbtphobia: 二进制值 (0 或 1)，表示标注者对于推文是否表现出 LGBT 歧视的共识。
political: 二进制值 (0 或 1)，表示标注者对于推文是否表现出政治相关的共识。
racism: 二进制值 (0 或 1)，表示标注者对于推文是否表现出种族歧视的共识。
religious intolerance: 二进制值 (0 或 1)，表示标注者对于推文是否表现出宗教不容忍的共识。
misogyny: 二进制值 (0 或 1)，表示标注者对于推文是否表现出性别歧视的共识。
xenophobia: 二进制值 (0 或 1)，表示标注者对于推文是否表现出仇外心理的共识。
other: 二进制值 (0 或 1)，表示标注者对于推文是否表现出其他内容的共识。

语言

数据集使用的语言是巴西葡萄牙语，对应的 BCP-47 代码是 pt-BR。

5,000+

优质数据集

54 个

任务类型

进入经典数据集