five

Poulpidot/FrenchHateSpeechSuperset

收藏
Hugging Face2023-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Poulpidot/FrenchHateSpeechSuperset
下载链接
链接失效反馈
官方服务:
资源简介:
FrenchHateSpeechSuperset数据集是一个包含多个数据集的超集,主要涉及仇恨言论、骚扰、性别歧视、种族歧视等信息。数据集整合了MLMA、CAA、FTR等多个数据集,以及从英文翻译过来的UC-Berkeley-Measuring-Hate-Speech数据集。为了扩充数据集,还通过机器翻译模型将其他语言的信息整合进来,并使用语言检测模型进行语言验证。每个样本根据是否为仇恨言论被标注为0或1。
提供机构:
Poulpidot
原始信息汇总

数据集概述

数据集名称

FrenchHateSpeechSuperset

数据集内容

该数据集是一个包含多种类型负面言论的超集,包括仇恨言论、骚扰、性别歧视、种族歧视等,来源于多个平台。

包含的数据集

  • MLMA dataset
  • CAA dataset
  • FTR dataset
  • "An Annotated Corpus for Sexism Detection in French Tweets" dataset
  • UC-Berkeley-Measuring-Hate-Speech dataset (已翻译自英语)

语言处理

为了增加法语仇恨言论数据集的丰富性,引入了其他语言(目前仅英语)的数据集,并使用机器翻译模型进行翻译。

语言验证

使用papluca/xlm-roberta-base-language-detection模型检测并过滤非法语文本,以确保数据集的纯度。

标注策略

每个样本根据其是否包含仇恨言论被标注为"0"(负样本)或"1"(正样本)。

过滤规则

  • UC-Berkeley Measuring Hate Speech dataset: 如果平均hate_speech_score大于0,则标注为"1"。

许可证

unknown

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作