five

Silly-Machine/TuPy-Dataset

收藏
Hugging Face2024-01-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Silly-Machine/TuPy-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TuPy数据集是一个包含10,000条葡萄牙语推文的数据集,专门设计用于训练和测试仇恨言论检测模型。数据集分为二元分类和多标签分类,每个分类下都有训练集和测试集。数据集中的文本已经过匿名处理,确保用户身份的隐私。标注过程采用投票机制,确保分类的准确性。数据集详细记录了包括年龄歧视、种族歧视、性别歧视等在内的多种仇恨言论类别的数量。

TuPy数据集是一个包含10,000条葡萄牙语推文的数据集,专门设计用于训练和测试仇恨言论检测模型。数据集分为二元分类和多标签分类,每个分类下都有训练集和测试集。数据集中的文本已经过匿名处理,确保用户身份的隐私。标注过程采用投票机制,确保分类的准确性。数据集详细记录了包括年龄歧视、种族歧视、性别歧视等在内的多种仇恨言论类别的数量。
提供机构:
Silly-Machine
原始信息汇总

葡萄牙语仇恨言论数据集 (TuPy)

数据集概述

  • 数据集名称: TuPy-Dataset
  • 许可证: cc-by-4.0
  • 标注创建者: 众包
  • 语言创建者: 巴西葡萄牙语
  • 语言: 葡萄牙语 (pt)
  • 多语言性: 单语种
  • 数据集大小: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 标签: 仇恨言论检测
  • 语言 BCP47: pt-BR

数据集配置

  • 多标签配置:
    • 训练集: multilabel/multilabel_train.csv
    • 测试集: multilabel/multilabel_test.csv
  • 二进制配置:
    • 训练集: binary/binary_train.csv
    • 测试集: binary/binary_test.csv

数据集描述

  • 数据来源: 2023年从Twitter(现称为X)收集的10,000条未发布、标注和匿名的文档。
  • 数据结构: 每个数据点包含推文文本(字符串)和十三种类别,每种类别根据是否存在攻击性或仇恨内容被赋予0或1的值。

标注和投票过程

  • 标注过程: 每个文档经过三次独立评估,如果文档获得两个或更多相同的分类,则赋值为1,否则为0。
  • 标注者信息: 标注者包括不同性别、教育背景和政治倾向的人士。

数据集内容

  • 非攻击性和攻击性文档统计:

    • 非攻击性: 8013条
    • 攻击性(非仇恨): 689条
    • 攻击性(仇恨): 1298条
    • 总计: 10000条
  • 仇恨类别统计:

    • 年龄歧视: 53条
    • 贫富歧视: 61条
    • 身体羞辱: 120条
    • 能力歧视: 92条
    • LGBT歧视: 96条
    • 政治相关: 532条
    • 种族歧视: 38条
    • 宗教不容忍: 28条
    • 性别歧视: 207条
    • 排外: 70条
    • 其他: 1条
    • 总计: 1298条

引用

python @misc {silly-machine_2023, author = { {Silly-Machine} }, title = { TuPy-Dataset (Revision de6b18c) }, year = 2023, url = { https://huggingface.co/datasets/Silly-Machine/TuPy-Dataset }, doi = { 10.57967/hf/1529 }, publisher = { Hugging Face } }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作