told-br
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/told-br
下载链接
链接失效反馈官方服务:
资源简介:
ToLD-Br专注于巴西葡萄牙语的社交媒体有毒言论检测,它提供了两种版本的数据:多标签版和二元版。多标签版包含2.1万条样本,对推文在同性恋恐惧症、淫秽、侮辱、种族主义、厌女症和仇外心理六个类别上进行标注;二元版包含1.68万条训练样本、2100条验证样本和2100条测试样本,标注推文是否具有毒性。数据采集自Twitter,经过关键词和用户提及筛选,并由42位背景各异的众包标注员进行标注,旨在减少偏见。该数据集采用CC-BY-SA 4.0许可协议,可用于训练仇恨言论检测模型。
创建时间:
2024-07-19



