reddit-br-toxicity-dataset

github2023-12-28 更新2024-05-31 收录

下载链接：

https://github.com/luizhenriqueds/reddit-br-toxicity-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2,500个从巴西最受欢迎的Reddit社区中手动标注的评论，用于在线社交网络中的毒性内容检测。数据集通过众包方式由计算机科学系和UFMG的语言学团队共同标注。数据集旨在促进针对低资源语言如巴西葡萄牙语的机器学习技术的实验和进步。

This dataset comprises 2,500 manually annotated comments from the most popular Reddit communities in Brazil, designed for the detection of toxic content in online social networks. The annotations were collaboratively conducted through crowdsourcing by the Department of Computer Science and the linguistics team at UFMG. The dataset aims to foster experimentation and advancement in machine learning techniques for low-resource languages such as Brazilian Portuguese.

创建时间：

2023-12-26

原始信息汇总

数据集概述

数据集名称

Toxic Content Detection in online social networks: a new dataset from Brazilian Reddit Communities

数据集内容

样本数量: 2,500条手动标注的评论
数据来源: 从巴西Reddit社区中最大的10个子论坛提取
数据收集时间: 2022年1月至2022年12月
数据类型: 评论文本及其毒性标签

数据集结构

字段:
- id: 评论在Reddit平台的唯一标识
- body: 原始评论文本
- is_toxic: 评论的最终标签（0表示非毒性，1表示毒性，-1表示标注者意见不一致）

标注过程

标注者: 来自计算机科学系(DCC)和UFMG的语言学组
标注方法: 通过众包方式进行，标注者将评论标记为Toxic, Non-toxic, I do not know, Missing info
最终标签: 通过多数投票确定

数据可用性

文件格式: CSV
文件路径: dataset/toxicity_br_labeled_data.csv

数据集用途

旨在促进针对低资源语言（如巴西葡萄牙语）的毒性分类模型的实验和进步，改进现有方法或提出新方法。

引用格式

cite Lima, Q. Luiz Henrique; Pagano, S. Adriana; da Silva, A.P.C. 2024. Toxic Content Detection in online social networks: a new dataset from Brazilian Reddit Communities. 16th International Conference on Computational Processing of Portuguese (PROPOR 2024).

搜集汇总

数据集介绍

构建方式

该数据集构建于巴西Reddit社区的评论数据，涵盖了2022年1月至12月期间来自10个最大巴西子论坛的2500条手动标注评论。数据采样采用分层抽样方法，依据每个子论坛的发帖量和发布时间进行筛选。标注工作通过众包方式完成，由计算机科学部门和语言学团队共同参与，确保数据的多样性和代表性。

特点

该数据集的特点在于其专注于巴西葡萄牙语的毒性内容检测，填补了低资源语言在这一领域的空白。数据集包含2500条手动标注的评论，每条评论被标记为“有毒”、“无毒”、“不确定”或“信息缺失”。标注结果通过多数投票确定，确保了标签的可靠性。数据集中包含评论的唯一标识符、原始文本内容以及最终毒性标签，未进行任何预处理，保留了数据的原始性。

使用方法

该数据集可用于训练和评估毒性内容检测模型，特别是在巴西葡萄牙语环境下。研究人员可以从头开始训练机器学习模型，或对现有的大型语言模型进行微调。数据集的目标是推动低资源语言毒性检测技术的发展，促进新方法的提出和现有方法的改进。更多关于数据集的详细信息和实验方法可参考相关论文。

背景与挑战

背景概述

在社交媒体平台中，毒性内容的检测与治理已成为一个重要的研究领域。reddit-br-toxicity-dataset数据集由巴西米纳斯吉拉斯联邦大学（UFMG）的计算机科学系和语言学团队共同创建，并于2024年在第16届葡萄牙语计算处理国际会议（PROPOR 2024）上发布。该数据集包含从巴西最大的10个Reddit社区中提取的2,500条手动标注评论，旨在推动低资源语言（如巴西葡萄牙语）的毒性内容自动检测研究。通过众包标注的方式，研究人员对评论进行了毒性分类，为社交媒体内容治理提供了重要的数据支持。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题上，巴西葡萄牙语作为低资源语言，现有的毒性分类模型稀缺，且语言特性复杂，导致模型训练和评估的难度较大。其次，在数据构建过程中，标注工作面临主观性和不确定性的挑战。尽管采用了多数投票机制来确定最终标签，但评论的语境多样性和文化背景差异使得标注者在对毒性内容进行判断时存在分歧，部分评论被标记为‘不确定’或‘信息缺失’。此外，数据采样过程中需平衡不同子社区的发帖量和时间分布，以确保数据的代表性和多样性，这也增加了数据集的构建难度。

常用场景

经典使用场景

在社交媒体内容审核领域，reddit-br-toxicity-dataset数据集为研究人员提供了一个宝贵的资源，用于训练和评估毒性内容检测模型。该数据集包含了来自巴西Reddit社区的2500条手动标注的评论，涵盖了多个热门子论坛，如r/brasil和r/desabafos。通过使用这些数据，研究人员可以开发出更精确的算法，以自动识别和过滤在线社交网络中的有害内容。

实际应用

在实际应用中，reddit-br-toxicity-dataset数据集可以用于构建自动化的内容审核系统，帮助社交媒体平台实时监测和过滤有害内容。例如，Reddit等平台可以利用该数据集训练模型，自动标记或删除含有攻击性、侮辱性或仇恨言论的评论，从而提升用户体验并维护社区的健康环境。此外，该数据集还可用于教育领域，帮助学生和研究人员了解毒性内容的特征及其检测方法。

衍生相关工作

基于reddit-br-toxicity-dataset数据集，许多相关研究工作得以展开。例如，研究人员开发了基于深度学习的毒性内容检测模型，利用该数据集进行训练和评估。此外，一些研究还探索了跨语言毒性检测的可能性，将巴西葡萄牙语的数据与其他语言的数据进行对比分析。这些工作不仅丰富了毒性检测领域的研究成果，还为多语言社交媒体内容审核提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集