JAugusto97/told-br
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/JAugusto97/told-br
下载链接
链接失效反馈官方服务:
资源简介:
ToLD-Br是巴西葡萄牙语中最大的有毒推文数据集,由42名注释者通过众包方式标注。注释者来自不同的人口统计背景,以减少偏见。数据集包含多标签和二进制两种版本。多标签版本包含六个类别(恐同、淫秽、侮辱、种族主义、厌女症和仇外心理),每个类别有0到3的投票数。二进制版本则将文本分类为有毒或无毒。数据集包含21,000个多标签示例和16,800个二进制训练示例。
提供机构:
JAugusto97
原始信息汇总
数据集概述
基本信息
- 数据集名称: ToLD-Br
- 语言: 巴西葡萄牙语 (pt-BR)
- 许可证: CC BY-SA 4.0
- 数据集大小: 10K<n<100K
- 任务类别: 文本分类
- 标签创建者: 众包
- 语言创建者: 众包
数据集结构
配置
-
multilabel:
- 特征:
text: 字符串类型,表示用户发布的推文,提及其他用户的地方被替换为@user标签。homophobia,obscene,insult,racism,misogyny,xenophobia: 数值类型,取值范围为{0, 1, 2, 3},表示标注者对该推文在相应类别上的投票数。
- 数据分割:
train: 21,000个样本
- 特征:
-
binary:
- 特征:
text: 字符串类型,表示用户发布的推文,提及其他用户的地方被替换为@user标签。label: 数值类型,取值范围为{0, 1},表示推文是否具有毒性/攻击性。
- 数据分割:
train: 16,800个样本test: 2,100个样本validation: 2,100个样本
- 特征:
数据集创建
数据收集和规范化
- 数据收集时间: 2019年8月,为期15天
- 数据收集方法: 关键词和用户提及
- 关键词列表: 包含多种攻击性词汇
标注过程
- 标注者选择: 从129名志愿者中选出42名,以确保多样化的背景
- 标注工具: Google Sheets
- 标注团队: 14个团队,每组3名标注者
- 标注报酬: 每位标注者为1500个样本支付R$50 ($10)
标注者信息
- 性别: 男性18名,女性24名
- 性取向: 异性恋22名,双性恋12名,同性恋5名,泛性恋3名
- 种族: 白人25名,棕色人种9名,黑人5名,亚洲人2名,未声明1名
- 年龄范围: 18至37岁
使用数据集的考虑
社会影响
- 目的: 帮助开发更好的仇恨言论检测系统
偏见讨论
- 标注偏见: 通过选择多样化的标注者来减少偏见
- 数据收集偏见: 使用关键词和用户提及可能导致数据范围受限
其他已知限制
- 多标签类别: 由于数据偏斜,难以训练稳健的模型
- 二元类别: 可用于训练分类器,最高可达76%的F1分数
附加信息
数据集创建者
- João Augusto Leite, Diego F. Silva (联邦大学圣卡洛斯,巴西)
- Carolina Scarton, Kalina Bontcheva (谢菲尔德大学,英国)
许可证信息
- 数据集在CC BY-SA 4.0许可证下发布
引用信息
@article{DBLP:journals/corr/abs-2010-04543, author = {Joao Augusto Leite and Diego F. Silva and Kalina Bontcheva and Carolina Scarton}, title = {Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis}, journal = {CoRR}, volume = {abs/2010.04543}, year = {2020}, url = {https://arxiv.org/abs/2010.04543}, eprinttype = {arXiv}, eprint = {2010.04543}, timestamp = {Tue, 15 Dec 2020 16:10:16 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2010-04543.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }



