five

classla/FRENK-hate-sl

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/FRENK-hate-sl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是FRENK数据集的斯洛文尼亚子集,专注于检测仇恨言论和冒犯性语言。原始FRENK数据集包含来自克罗地亚、英国和斯洛文尼亚的主流媒体Facebook帖子(新闻文章)的评论,主题涉及移民和LGBT。数据集包含完整的讨论线程,每个评论都标注了社会不可接受言论的类型(如不适当、冒犯性、暴力言论)及其目标(如移民/LGBT、评论者、媒体)。数据按语言(克罗地亚语、英语、斯洛文尼亚语)和主题(移民、LGBT)分为训练和测试部分,训练和测试数据由独立的讨论线程组成,以避免交叉污染。斯洛文尼亚子集的数据结构包括文本、目标、主题和标签。
提供机构:
classla
原始信息汇总

数据集概述

基本信息

  • 语言: 斯洛文尼亚语 (sl)
  • 许可证: 其他
  • 数据规模: 1K<n<10K
  • 任务类别: 文本分类
  • 标签: 仇恨言论检测, 攻击性语言

数据集描述

  • 数据来源: FRENK数据集的斯洛文尼亚语子集
  • 数据类型: 包含针对Facebook帖子(新闻文章)的评论,涉及移民和LGBT主题
  • 数据结构:
    • text: 文本内容
    • target: 仇恨言论的目标(无目标, 评论者, 目标(移民或LGBT,取决于主题), 或相关(主题))
    • topic: 文本涉及的仇恨言论领域(lgbt或移民)
    • label: 文本实例的标签

数据实例

json { "text": "Otroci so odprti in brez predsodkov.Predsodke jim vcepimo starejši,starši,družba,družina...Če otroku lepo razložimo,razume.Nikoli ni dobro,da omejujemo otroka,njegovo inteligenco in duhovnost z lastnim ne razumevanjem nečesa ali nekoga.Predsodek je miselni zapor,prepreka,da bi bili svobodni.Ljubezen je svoboda.Sem ZA spremembo zakona!Srečno :D", "target": "No target", "topic": "lgbt", "label": 0 }

标签编码

  • 二分类: python _CLASS_MAP_BINARY = { Acceptable: 0, Offensive: 1, }

  • 多分类: python _CLASS_MAP_MULTICLASS = { Acceptable speech: 0, Inappropriate: 1, Background offensive: 2, Other offensive: 3, Background violence: 4, Other violence: 5, }

许可证信息

  • 许可证: CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0

引用信息

  • 数据集引用: bibtex @misc{ljubešić2019frenk, title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec}, year={2019}, eprint={1906.02045}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1906.02045} }

  • 原始数据集引用: bibtex @misc{11356/1433, title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0}, author = {Ljube{v s}i{c}, Nikola and Fi{v s}er, Darja and Erjavec, Toma{v z}}, url = {http://hdl.handle.net/11356/1433}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0}, year = {2021} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作