TuPyE

github2024-01-03 更新2024-05-31 收录

下载链接：

https://github.com/Silly-Machine/TuPyE-Expanded-Brazilian-Hate-Speech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TuPyE是一个扩展的葡萄牙语仇恨言论检测数据集，包含43,668个精心标注的文档，用于在不同社交网络环境中检测仇恨言论。该数据集整合了来自多个研究的额外标注，并加入了10,000个原始文档，旨在通过机器学习和自然语言处理技术促进高级仇恨言论检测模型的发展。

TuPyE is an extended Portuguese hate speech detection dataset, consisting of 43,668 meticulously annotated documents for hate speech detection across various social network environments. This dataset incorporates additional annotations from multiple studies and adds 10,000 original documents, aiming to advance the development of high-level hate speech detection models through machine learning and natural language processing technologies.

创建时间：

2024-01-03

原始信息汇总

数据集概述

数据集名称

Portuguese Hate Speech Expanded Dataset (TuPyE)

数据集大小

包含43,668个经过细致标注的文档，用于检测不同社交网络环境中的仇恨言论。

数据集来源与组成

TuPy-Dataset: 新增10,000个原始文档。
Fortuna et al. (2019): 5,668个标注文档。
Leite et al. (2020): 21,000个标注文档。
Vargas et al. (2022): 7,000个标注文档。

数据集结构

binary: 二元数据集，包括训练和测试分割。
multilabel: 多标签数据集，包括训练和测试分割。

数据点结构

每个数据点包括推文文本（字符串）和十三个类别，每个类别根据是否存在攻击性或仇恨内容标记为0或1。

数据集内容

Table 1: 描述了TuPyE中各研究者的文档数量。
Table 2: 提供了基于攻击性言论和仇恨言论的文档数量细分。
Table 3: 详细分析了不同仇恨类别的数据量。

数据集目的

用于通过机器学习和自然语言处理技术开发高级仇恨言论检测模型。

搜集汇总

数据集介绍

构建方式

TuPyE数据集的构建过程体现了对葡萄牙语仇恨言论检测领域的高度关注。该数据集整合了来自Fortuna et al. (2019)、Leite et al. (2020)和Vargas et al. (2022)的标注文档，并结合了TuPy-Dataset的10,000条原始文档。为确保数据的一致性和兼容性，采用了严格的文本整合指南，并通过多数投票机制对文档进行分类。这一过程不仅扩展了现有数据集，还为机器学习与自然语言处理技术的应用提供了坚实的基础。

特点

TuPyE数据集的特点在于其广泛的覆盖范围和细致的标注体系。该数据集包含43,668条文档，涵盖了多种社交媒体平台上的仇恨言论。每条文档均标注了十三种仇恨言论类别，包括年龄歧视、贫困歧视、身体羞辱、能力歧视、LGBT恐惧症、政治、种族主义、宗教不容忍、性别歧视、仇外心理等。这种多标签分类体系为仇恨言论的细粒度分析提供了丰富的数据支持。

使用方法

TuPyE数据集的使用方法灵活多样，适用于多种自然语言处理任务。数据集分为二进制和多标签两种格式，分别适用于不同的模型训练需求。二进制数据集适用于简单的仇恨言论检测任务，而多标签数据集则支持更复杂的仇恨言论分类任务。用户可以通过读取数据集中的文本和标注信息，结合机器学习算法进行模型训练与评估。此外，数据集中的用户提及和外部链接均已匿名化处理，确保了数据使用的安全性与合规性。

背景与挑战

背景概述

TuPyE数据集是葡萄牙语仇恨言论检测领域的重要资源，由巴西里约热内卢联邦大学（UFRJ）和阿尔贝托·路易斯·科英布拉工程研究生院（COPPE）资助开发。该数据集是TuPy的扩展版本，整合了来自Fortuna et al. (2019)、Leite et al. (2020)和Vargas et al. (2022)的研究数据，并新增了10,000条原始文档，总计包含43,668条经过精细标注的文档。TuPyE的创建旨在解决葡萄牙语仇恨言论检测领域数据稀缺的问题，为机器学习和自然语言处理技术的应用提供支持。该数据集不仅为研究者提供了丰富的标注数据，还通过严格的整合与标注流程，确保了数据的一致性和可靠性，推动了葡萄牙语社交媒体中仇恨言论检测模型的发展。

当前挑战

TuPyE数据集在构建和应用过程中面临多重挑战。首先，仇恨言论的定义和标注具有高度主观性，不同文化和语境下的表达方式差异显著，这为数据标注和模型训练带来了复杂性。其次，数据整合过程中需要处理来自不同研究的数据格式和标注标准，确保数据的一致性和兼容性。此外，社交媒体数据的动态性和多样性使得数据采集和更新成为一项持续挑战。在应用层面，如何有效利用多标签分类技术处理复杂的仇恨言论类别，以及如何提升模型在跨平台和跨语言环境中的泛化能力，仍是亟待解决的问题。这些挑战不仅考验了数据集的构建质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

TuPyE数据集在自然语言处理领域中被广泛应用于葡萄牙语社交媒体中的仇恨言论检测。其经典使用场景包括训练和评估机器学习模型，特别是那些专注于多标签分类任务的模型。通过整合多个来源的标注数据，TuPyE为研究者提供了一个丰富且多样化的语料库，使得模型能够在不同语境下进行有效的仇恨言论识别。

衍生相关工作

TuPyE数据集衍生了一系列相关研究，特别是在葡萄牙语仇恨言论检测领域。例如，基于TuPyE的研究工作包括开发新的多标签分类算法、探索跨语言仇恨言论检测模型，以及研究社交媒体中仇恨言论的传播模式。这些研究不仅推动了自然语言处理技术的发展，还为社交媒体平台提供了有效的工具来应对仇恨言论的挑战。

数据集最近研究