JAugusto97/told-br

Name: JAugusto97/told-br
Creator: JAugusto97
Published: 2024-01-18 11:17:17
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/JAugusto97/told-br

下载链接

链接失效反馈

官方服务：

资源简介：

ToLD-Br是巴西葡萄牙语中最大的有毒推文数据集，由42名注释者通过众包方式标注。注释者来自不同的人口统计背景，以减少偏见。数据集包含多标签和二进制两种版本。多标签版本包含六个类别（恐同、淫秽、侮辱、种族主义、厌女症和仇外心理），每个类别有0到3的投票数。二进制版本则将文本分类为有毒或无毒。数据集包含21,000个多标签示例和16,800个二进制训练示例。

提供机构：

JAugusto97

原始信息汇总

数据集概述

基本信息

数据集名称: ToLD-Br
语言: 巴西葡萄牙语 (pt-BR)
许可证: CC BY-SA 4.0
数据集大小: 10K<n<100K
任务类别: 文本分类
标签创建者: 众包
语言创建者: 众包

数据集结构

配置

multilabel:
- 特征:
  - text: 字符串类型，表示用户发布的推文，提及其他用户的地方被替换为@user标签。
  - homophobia, obscene, insult, racism, misogyny, xenophobia: 数值类型，取值范围为{0, 1, 2, 3}，表示标注者对该推文在相应类别上的投票数。
- 数据分割:
  - train: 21,000个样本
binary:
- 特征:
  - text: 字符串类型，表示用户发布的推文，提及其他用户的地方被替换为@user标签。
  - label: 数值类型，取值范围为{0, 1}，表示推文是否具有毒性/攻击性。
- 数据分割:
  - train: 16,800个样本
  - test: 2,100个样本
  - validation: 2,100个样本

数据集创建

数据收集和规范化

数据收集时间: 2019年8月，为期15天
数据收集方法: 关键词和用户提及
关键词列表: 包含多种攻击性词汇

标注过程

标注者选择: 从129名志愿者中选出42名，以确保多样化的背景
标注工具: Google Sheets
标注团队: 14个团队，每组3名标注者
标注报酬: 每位标注者为1500个样本支付R$50 ($10)

标注者信息

性别: 男性18名，女性24名
性取向: 异性恋22名，双性恋12名，同性恋5名，泛性恋3名
种族: 白人25名，棕色人种9名，黑人5名，亚洲人2名，未声明1名
年龄范围: 18至37岁

使用数据集的考虑

社会影响

目的: 帮助开发更好的仇恨言论检测系统

偏见讨论

标注偏见: 通过选择多样化的标注者来减少偏见
数据收集偏见: 使用关键词和用户提及可能导致数据范围受限

其他已知限制

多标签类别: 由于数据偏斜，难以训练稳健的模型
二元类别: 可用于训练分类器，最高可达76%的F1分数

附加信息

数据集创建者

João Augusto Leite, Diego F. Silva (联邦大学圣卡洛斯，巴西)
Carolina Scarton, Kalina Bontcheva (谢菲尔德大学，英国)

许可证信息

数据集在CC BY-SA 4.0许可证下发布

引用信息

@article{DBLP:journals/corr/abs-2010-04543, author = {Joao Augusto Leite and Diego F. Silva and Kalina Bontcheva and Carolina Scarton}, title = {Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis}, journal = {CoRR}, volume = {abs/2010.04543}, year = {2020}, url = {https://arxiv.org/abs/2010.04543}, eprinttype = {arXiv}, eprint = {2010.04543}, timestamp = {Tue, 15 Dec 2020 16:10:16 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2010-04543.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集