five

JAugusto97/told-br

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/JAugusto97/told-br
下载链接
链接失效反馈
官方服务:
资源简介:
ToLD-Br是巴西葡萄牙语中最大的有毒推文数据集,由42名注释者通过众包方式标注。注释者来自不同的人口统计背景,以减少偏见。数据集包含多标签和二进制两种版本。多标签版本包含六个类别(恐同、淫秽、侮辱、种族主义、厌女症和仇外心理),每个类别有0到3的投票数。二进制版本则将文本分类为有毒或无毒。数据集包含21,000个多标签示例和16,800个二进制训练示例。
提供机构:
JAugusto97
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ToLD-Br
  • 语言: 巴西葡萄牙语 (pt-BR)
  • 许可证: CC BY-SA 4.0
  • 数据集大小: 10K<n<100K
  • 任务类别: 文本分类
  • 标签创建者: 众包
  • 语言创建者: 众包

数据集结构

配置

  • multilabel:

    • 特征:
      • text: 字符串类型,表示用户发布的推文,提及其他用户的地方被替换为@user标签。
      • homophobia, obscene, insult, racism, misogyny, xenophobia: 数值类型,取值范围为{0, 1, 2, 3},表示标注者对该推文在相应类别上的投票数。
    • 数据分割:
      • train: 21,000个样本
  • binary:

    • 特征:
      • text: 字符串类型,表示用户发布的推文,提及其他用户的地方被替换为@user标签。
      • label: 数值类型,取值范围为{0, 1},表示推文是否具有毒性/攻击性。
    • 数据分割:
      • train: 16,800个样本
      • test: 2,100个样本
      • validation: 2,100个样本

数据集创建

数据收集和规范化

  • 数据收集时间: 2019年8月,为期15天
  • 数据收集方法: 关键词和用户提及
  • 关键词列表: 包含多种攻击性词汇

标注过程

  • 标注者选择: 从129名志愿者中选出42名,以确保多样化的背景
  • 标注工具: Google Sheets
  • 标注团队: 14个团队,每组3名标注者
  • 标注报酬: 每位标注者为1500个样本支付R$50 ($10)

标注者信息

  • 性别: 男性18名,女性24名
  • 性取向: 异性恋22名,双性恋12名,同性恋5名,泛性恋3名
  • 种族: 白人25名,棕色人种9名,黑人5名,亚洲人2名,未声明1名
  • 年龄范围: 18至37岁

使用数据集的考虑

社会影响

  • 目的: 帮助开发更好的仇恨言论检测系统

偏见讨论

  • 标注偏见: 通过选择多样化的标注者来减少偏见
  • 数据收集偏见: 使用关键词和用户提及可能导致数据范围受限

其他已知限制

  • 多标签类别: 由于数据偏斜,难以训练稳健的模型
  • 二元类别: 可用于训练分类器,最高可达76%的F1分数

附加信息

数据集创建者

  • João Augusto Leite, Diego F. Silva (联邦大学圣卡洛斯,巴西)
  • Carolina Scarton, Kalina Bontcheva (谢菲尔德大学,英国)

许可证信息

  • 数据集在CC BY-SA 4.0许可证下发布

引用信息

@article{DBLP:journals/corr/abs-2010-04543, author = {Joao Augusto Leite and Diego F. Silva and Kalina Bontcheva and Carolina Scarton}, title = {Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis}, journal = {CoRR}, volume = {abs/2010.04543}, year = {2020}, url = {https://arxiv.org/abs/2010.04543}, eprinttype = {arXiv}, eprint = {2010.04543}, timestamp = {Tue, 15 Dec 2020 16:10:16 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2010-04543.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作