Silly-Machine/TuPy-Dataset

Name: Silly-Machine/TuPy-Dataset
Creator: Silly-Machine
Published: 2024-01-01 14:43:46
License: 暂无描述

Hugging Face2024-01-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Silly-Machine/TuPy-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TuPy数据集是一个包含10,000条葡萄牙语推文的数据集，专门设计用于训练和测试仇恨言论检测模型。数据集分为二元分类和多标签分类，每个分类下都有训练集和测试集。数据集中的文本已经过匿名处理，确保用户身份的隐私。标注过程采用投票机制，确保分类的准确性。数据集详细记录了包括年龄歧视、种族歧视、性别歧视等在内的多种仇恨言论类别的数量。

提供机构：

Silly-Machine

原始信息汇总

葡萄牙语仇恨言论数据集 (TuPy)

数据集概述

数据集名称: TuPy-Dataset
许可证: cc-by-4.0
标注创建者: 众包
语言创建者: 巴西葡萄牙语
语言: 葡萄牙语 (pt)
多语言性: 单语种
数据集大小: 10K<n<100K
源数据集: 原始数据
任务类别: 文本分类
标签: 仇恨言论检测
语言 BCP47: pt-BR

数据集配置

多标签配置:
- 训练集: multilabel/multilabel_train.csv
- 测试集: multilabel/multilabel_test.csv
二进制配置:
- 训练集: binary/binary_train.csv
- 测试集: binary/binary_test.csv

数据集描述

数据来源: 2023年从Twitter（现称为X）收集的10,000条未发布、标注和匿名的文档。
数据结构: 每个数据点包含推文文本（字符串）和十三种类别，每种类别根据是否存在攻击性或仇恨内容被赋予0或1的值。

标注和投票过程

标注过程: 每个文档经过三次独立评估，如果文档获得两个或更多相同的分类，则赋值为1，否则为0。
标注者信息: 标注者包括不同性别、教育背景和政治倾向的人士。

数据集内容

非攻击性和攻击性文档统计:
- 非攻击性: 8013条
- 攻击性（非仇恨）: 689条
- 攻击性（仇恨）: 1298条
- 总计: 10000条
仇恨类别统计:
- 年龄歧视: 53条
- 贫富歧视: 61条
- 身体羞辱: 120条
- 能力歧视: 92条
- LGBT歧视: 96条
- 政治相关: 532条
- 种族歧视: 38条
- 宗教不容忍: 28条
- 性别歧视: 207条
- 排外: 70条
- 其他: 1条
- 总计: 1298条

引用

python @misc {silly-machine_2023, author = { {Silly-Machine} }, title = { TuPy-Dataset (Revision de6b18c) }, year = 2023, url = { https://huggingface.co/datasets/Silly-Machine/TuPy-Dataset }, doi = { 10.57967/hf/1529 }, publisher = { Hugging Face } }

5,000+

优质数据集

54 个

任务类型

进入经典数据集