classla/FRENK-hate-en

Name: classla/FRENK-hate-en
Creator: classla
Published: 2022-10-21 07:52:06
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/classla/FRENK-hate-en

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是FRENK数据集的英文子集，专注于检测克罗地亚评论中的攻击性语言。数据集包含完整的讨论线程，每个评论都根据社会不可接受的言论类型（如不当、攻击性、暴力言论）及其目标（如移民/LGBT、评论者、媒体）进行标注。数据按语言和主题分为训练和测试部分，确保训练和测试数据之间没有跨讨论线程的污染。该数据集支持二元和多类别分类任务，具有不同的标签编码。数据结构包括文本、目标、主题和标签字段。

提供机构：

classla

原始信息汇总

数据集概述

基本信息

名称： Offensive language dataset of Croatian comments FRENK 1.0
语言： 英语
许可证： 其他
大小： 1K<n<10K
任务类别： 文本分类
标签： 仇恨言论检测, 攻击性语言

数据集描述

原始数据集组成： 包含克罗地亚、英国和斯洛文尼亚主流媒体Facebook帖子（新闻文章）的评论，主题涉及移民和LGBT。数据集包含完整的讨论线程，每条评论都标注了社会不可接受言论的类型及其目标。
数据分割： 每种语言（克罗地亚语、英语、斯洛文尼亚语）和主题（移民、LGBT）的数据分为训练和测试部分，训练和测试数据来自不同的讨论线程。
本数据集使用： 仅使用英语数据，训练部分分为前90%（训练分割）和后10%（开发分割）。

数据结构

text: 文本内容
target: 仇恨言论的目标（无目标、评论者、目标（移民或LGBT）、相关）
topic: 文本关联的主题（LGBT或移民）
label: 文本实例的标签

使用示例

二分类编码： python _CLASS_MAP_BINARY = { Acceptable: 0, Offensive: 1, }
多分类编码： python _CLASS_MAP_MULTICLASS = { Acceptable speech: 0, Inappropriate: 1, Background offensive: 2, Other offensive: 3, Background violence: 4, Other violence: 5, }

许可证

CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0

引用信息

论文引用：

@misc{ljubešić2019frenk, title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec}, year={2019}, eprint={1906.02045}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1906.02045} }
数据集引用：

@misc{11356/1433, title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0}, author = {Ljube{v s}i{c}, Nikola and Fi{v s}er, Darja and Erjavec, Toma{v z}}, url = {http://hdl.handle.net/11356/1433}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0}, year = {2021} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集