classla/FRENK-hate-sl
收藏数据集概述
基本信息
- 语言: 斯洛文尼亚语 (sl)
- 许可证: 其他
- 数据规模: 1K<n<10K
- 任务类别: 文本分类
- 标签: 仇恨言论检测, 攻击性语言
数据集描述
- 数据来源: FRENK数据集的斯洛文尼亚语子集
- 数据类型: 包含针对Facebook帖子(新闻文章)的评论,涉及移民和LGBT主题
- 数据结构:
- text: 文本内容
- target: 仇恨言论的目标(无目标, 评论者, 目标(移民或LGBT,取决于主题), 或相关(主题))
- topic: 文本涉及的仇恨言论领域(lgbt或移民)
- label: 文本实例的标签
数据实例
json { "text": "Otroci so odprti in brez predsodkov.Predsodke jim vcepimo starejši,starši,družba,družina...Če otroku lepo razložimo,razume.Nikoli ni dobro,da omejujemo otroka,njegovo inteligenco in duhovnost z lastnim ne razumevanjem nečesa ali nekoga.Predsodek je miselni zapor,prepreka,da bi bili svobodni.Ljubezen je svoboda.Sem ZA spremembo zakona!Srečno :D", "target": "No target", "topic": "lgbt", "label": 0 }
标签编码
-
二分类: python _CLASS_MAP_BINARY = { Acceptable: 0, Offensive: 1, }
-
多分类: python _CLASS_MAP_MULTICLASS = { Acceptable speech: 0, Inappropriate: 1, Background offensive: 2, Other offensive: 3, Background violence: 4, Other violence: 5, }
许可证信息
- 许可证: CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0
引用信息
-
数据集引用: bibtex @misc{ljubešić2019frenk, title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec}, year={2019}, eprint={1906.02045}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1906.02045} }
-
原始数据集引用: bibtex @misc{11356/1433, title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0}, author = {Ljube{v s}i{c}, Nikola and Fi{v s}er, Darja and Erjavec, Toma{v z}}, url = {http://hdl.handle.net/11356/1433}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0}, year = {2021} }



