Poulpidot/FrenchHateSpeechSuperset
收藏Hugging Face2023-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Poulpidot/FrenchHateSpeechSuperset
下载链接
链接失效反馈官方服务:
资源简介:
FrenchHateSpeechSuperset数据集是一个包含多个数据集的超集,主要涉及仇恨言论、骚扰、性别歧视、种族歧视等信息。数据集整合了MLMA、CAA、FTR等多个数据集,以及从英文翻译过来的UC-Berkeley-Measuring-Hate-Speech数据集。为了扩充数据集,还通过机器翻译模型将其他语言的信息整合进来,并使用语言检测模型进行语言验证。每个样本根据是否为仇恨言论被标注为0或1。
提供机构:
Poulpidot
原始信息汇总
数据集概述
数据集名称
FrenchHateSpeechSuperset
数据集内容
该数据集是一个包含多种类型负面言论的超集,包括仇恨言论、骚扰、性别歧视、种族歧视等,来源于多个平台。
包含的数据集
- MLMA dataset
- CAA dataset
- FTR dataset
- "An Annotated Corpus for Sexism Detection in French Tweets" dataset
- UC-Berkeley-Measuring-Hate-Speech dataset (已翻译自英语)
语言处理
为了增加法语仇恨言论数据集的丰富性,引入了其他语言(目前仅英语)的数据集,并使用机器翻译模型进行翻译。
语言验证
使用papluca/xlm-roberta-base-language-detection模型检测并过滤非法语文本,以确保数据集的纯度。
标注策略
每个样本根据其是否包含仇恨言论被标注为"0"(负样本)或"1"(正样本)。
过滤规则
- UC-Berkeley Measuring Hate Speech dataset: 如果平均hate_speech_score大于0,则标注为"1"。
许可证
unknown



