Poulpidot/FrenchHateSpeechSuperset

Name: Poulpidot/FrenchHateSpeechSuperset
Creator: Poulpidot
Published: 2023-02-04 21:17:04
License: 暂无描述

Hugging Face2023-02-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Poulpidot/FrenchHateSpeechSuperset

下载链接

链接失效反馈

官方服务：

资源简介：

FrenchHateSpeechSuperset数据集是一个包含多个数据集的超集，主要涉及仇恨言论、骚扰、性别歧视、种族歧视等信息。数据集整合了MLMA、CAA、FTR等多个数据集，以及从英文翻译过来的UC-Berkeley-Measuring-Hate-Speech数据集。为了扩充数据集，还通过机器翻译模型将其他语言的信息整合进来，并使用语言检测模型进行语言验证。每个样本根据是否为仇恨言论被标注为0或1。

提供机构：

Poulpidot

原始信息汇总

数据集概述

数据集名称

FrenchHateSpeechSuperset

数据集内容

该数据集是一个包含多种类型负面言论的超集，包括仇恨言论、骚扰、性别歧视、种族歧视等，来源于多个平台。

包含的数据集

MLMA dataset
CAA dataset
FTR dataset
"An Annotated Corpus for Sexism Detection in French Tweets" dataset
UC-Berkeley-Measuring-Hate-Speech dataset (已翻译自英语)

语言处理

为了增加法语仇恨言论数据集的丰富性，引入了其他语言（目前仅英语）的数据集，并使用机器翻译模型进行翻译。

语言验证

使用papluca/xlm-roberta-base-language-detection模型检测并过滤非法语文本，以确保数据集的纯度。

标注策略

每个样本根据其是否包含仇恨言论被标注为"0"（负样本）或"1"（正样本）。

过滤规则

UC-Berkeley Measuring Hate Speech dataset: 如果平均hate_speech_score大于0，则标注为"1"。

许可证

unknown

5,000+

优质数据集

54 个

任务类型

进入经典数据集