Silly-Machine/TuPy-Dataset
收藏Hugging Face2024-01-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Silly-Machine/TuPy-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
TuPy数据集是一个包含10,000条葡萄牙语推文的数据集,专门设计用于训练和测试仇恨言论检测模型。数据集分为二元分类和多标签分类,每个分类下都有训练集和测试集。数据集中的文本已经过匿名处理,确保用户身份的隐私。标注过程采用投票机制,确保分类的准确性。数据集详细记录了包括年龄歧视、种族歧视、性别歧视等在内的多种仇恨言论类别的数量。
TuPy数据集是一个包含10,000条葡萄牙语推文的数据集,专门设计用于训练和测试仇恨言论检测模型。数据集分为二元分类和多标签分类,每个分类下都有训练集和测试集。数据集中的文本已经过匿名处理,确保用户身份的隐私。标注过程采用投票机制,确保分类的准确性。数据集详细记录了包括年龄歧视、种族歧视、性别歧视等在内的多种仇恨言论类别的数量。
提供机构:
Silly-Machine
原始信息汇总
葡萄牙语仇恨言论数据集 (TuPy)
数据集概述
- 数据集名称: TuPy-Dataset
- 许可证: cc-by-4.0
- 标注创建者: 众包
- 语言创建者: 巴西葡萄牙语
- 语言: 葡萄牙语 (pt)
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 文本分类
- 标签: 仇恨言论检测
- 语言 BCP47: pt-BR
数据集配置
- 多标签配置:
- 训练集:
multilabel/multilabel_train.csv - 测试集:
multilabel/multilabel_test.csv
- 训练集:
- 二进制配置:
- 训练集:
binary/binary_train.csv - 测试集:
binary/binary_test.csv
- 训练集:
数据集描述
- 数据来源: 2023年从Twitter(现称为X)收集的10,000条未发布、标注和匿名的文档。
- 数据结构: 每个数据点包含推文文本(字符串)和十三种类别,每种类别根据是否存在攻击性或仇恨内容被赋予0或1的值。
标注和投票过程
- 标注过程: 每个文档经过三次独立评估,如果文档获得两个或更多相同的分类,则赋值为1,否则为0。
- 标注者信息: 标注者包括不同性别、教育背景和政治倾向的人士。
数据集内容
-
非攻击性和攻击性文档统计:
- 非攻击性: 8013条
- 攻击性(非仇恨): 689条
- 攻击性(仇恨): 1298条
- 总计: 10000条
-
仇恨类别统计:
- 年龄歧视: 53条
- 贫富歧视: 61条
- 身体羞辱: 120条
- 能力歧视: 92条
- LGBT歧视: 96条
- 政治相关: 532条
- 种族歧视: 38条
- 宗教不容忍: 28条
- 性别歧视: 207条
- 排外: 70条
- 其他: 1条
- 总计: 1298条
引用
python @misc {silly-machine_2023, author = { {Silly-Machine} }, title = { TuPy-Dataset (Revision de6b18c) }, year = 2023, url = { https://huggingface.co/datasets/Silly-Machine/TuPy-Dataset }, doi = { 10.57967/hf/1529 }, publisher = { Hugging Face } }



