classla/FRENK-hate-en
收藏数据集概述
基本信息
- 名称: Offensive language dataset of Croatian comments FRENK 1.0
- 语言: 英语
- 许可证: 其他
- 大小: 1K<n<10K
- 任务类别: 文本分类
- 标签: 仇恨言论检测, 攻击性语言
数据集描述
- 原始数据集组成: 包含克罗地亚、英国和斯洛文尼亚主流媒体Facebook帖子(新闻文章)的评论,主题涉及移民和LGBT。数据集包含完整的讨论线程,每条评论都标注了社会不可接受言论的类型及其目标。
- 数据分割: 每种语言(克罗地亚语、英语、斯洛文尼亚语)和主题(移民、LGBT)的数据分为训练和测试部分,训练和测试数据来自不同的讨论线程。
- 本数据集使用: 仅使用英语数据,训练部分分为前90%(训练分割)和后10%(开发分割)。
数据结构
- text: 文本内容
- target: 仇恨言论的目标(无目标、评论者、目标(移民或LGBT)、相关)
- topic: 文本关联的主题(LGBT或移民)
- label: 文本实例的标签
使用示例
-
二分类编码: python _CLASS_MAP_BINARY = { Acceptable: 0, Offensive: 1, }
-
多分类编码: python _CLASS_MAP_MULTICLASS = { Acceptable speech: 0, Inappropriate: 1, Background offensive: 2, Other offensive: 3, Background violence: 4, Other violence: 5, }
许可证
- CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0
引用信息
-
论文引用:
@misc{ljubešić2019frenk, title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec}, year={2019}, eprint={1906.02045}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1906.02045} }
-
数据集引用:
@misc{11356/1433, title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0}, author = {Ljube{v s}i{c}, Nikola and Fi{v s}er, Darja and Erjavec, Toma{v z}}, url = {http://hdl.handle.net/11356/1433}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0}, year = {2021} }



