five

classla/FRENK-hate-en

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/FRENK-hate-en
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是FRENK数据集的英文子集,专注于检测克罗地亚评论中的攻击性语言。数据集包含完整的讨论线程,每个评论都根据社会不可接受的言论类型(如不当、攻击性、暴力言论)及其目标(如移民/LGBT、评论者、媒体)进行标注。数据按语言和主题分为训练和测试部分,确保训练和测试数据之间没有跨讨论线程的污染。该数据集支持二元和多类别分类任务,具有不同的标签编码。数据结构包括文本、目标、主题和标签字段。
提供机构:
classla
原始信息汇总

数据集概述

基本信息

  • 名称: Offensive language dataset of Croatian comments FRENK 1.0
  • 语言: 英语
  • 许可证: 其他
  • 大小: 1K<n<10K
  • 任务类别: 文本分类
  • 标签: 仇恨言论检测, 攻击性语言

数据集描述

  • 原始数据集组成: 包含克罗地亚、英国和斯洛文尼亚主流媒体Facebook帖子(新闻文章)的评论,主题涉及移民和LGBT。数据集包含完整的讨论线程,每条评论都标注了社会不可接受言论的类型及其目标。
  • 数据分割: 每种语言(克罗地亚语、英语、斯洛文尼亚语)和主题(移民、LGBT)的数据分为训练和测试部分,训练和测试数据来自不同的讨论线程。
  • 本数据集使用: 仅使用英语数据,训练部分分为前90%(训练分割)和后10%(开发分割)。

数据结构

  • text: 文本内容
  • target: 仇恨言论的目标(无目标、评论者、目标(移民或LGBT)、相关)
  • topic: 文本关联的主题(LGBT或移民)
  • label: 文本实例的标签

使用示例

  • 二分类编码: python _CLASS_MAP_BINARY = { Acceptable: 0, Offensive: 1, }

  • 多分类编码: python _CLASS_MAP_MULTICLASS = { Acceptable speech: 0, Inappropriate: 1, Background offensive: 2, Other offensive: 3, Background violence: 4, Other violence: 5, }

许可证

  • CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0

引用信息

  • 论文引用:

    @misc{ljubešić2019frenk, title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec}, year={2019}, eprint={1906.02045}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1906.02045} }

  • 数据集引用:

    @misc{11356/1433, title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0}, author = {Ljube{v s}i{c}, Nikola and Fi{v s}er, Darja and Erjavec, Toma{v z}}, url = {http://hdl.handle.net/11356/1433}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0}, year = {2021} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作