COLD-team/COLD
收藏Hugging Face2022-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/COLD-team/COLD
下载链接
链接失效反馈官方服务:
资源简介:
COLD数据集旨在帮助研究人员诊断和评估其自动仇恨言论检测系统。该语料库突出了四种不同类型的复杂冒犯性语言:侮辱性语言、回收的侮辱性语言、形容词名词化和距离化,以及非冒犯性文本。数据集包含从三个不同数据集中收集的推文,并由六名标注者进行标注,每个实例至少由三名不同的标注者标注。数据以.tsv文件格式提供,包含八个列,其中四个是信息列,四个是标注相关列。
提供机构:
COLD-team
原始信息汇总
COLD: Complex Offensive Language Dataset
数据集概述
- 目的:用于诊断和评估自动仇恨言论检测系统。
- 内容:包含四种复杂攻击性语言类型(侮辱、回收的侮辱、形容词名词化、语言距离)及非攻击性文本。
- 来源:数据集由三个不同的数据集(Davidson et al, 2017; Waseem and Hovy, 2016; Robinson, 2017)的推文组成。
- 标注:由6名标注者完成,每个实例至少由3名不同的标注者标注。
数据集版本
- COLD-2016:用于《Journal of Linguistics and Computational Linguistics》论文中的分析和实验结果,包含2016个实例。
数据格式与标注
- 文件类型:.tsv
- 列信息:
- 信息性列:
- ID - 原始数据集信息及实例ID
- Dataset - 实例来源的数据集标识
- Text - 实例文本内容
- 多数投票列:
- Off - 文本是否具有攻击性
- Slur - 文本中是否包含侮辱
- Nom - 文本中是否存在形容词名词化
- Dist - 文本中是否存在语言距离
- 个体标注者列:
- Off1/2/3 - 标注者对文本攻击性的判断
- Slur1/2/3 - 标注者对文本中侮辱的判断
- Nom1/2/3 - 标注者对文本中形容词名词化的判断
- Dist1/2/3 - 标注者对文本中语言距离的判断
- 类别:
- Cat - 根据多数投票结果推断的类别
- 信息性列:
联系方式
- 如有疑问,请联系 carrc9953@gmail.com, alexis.palmer@unt.edu, 或 melissa.robinson@my.unt.edu。
引用信息
-
使用此数据集时,请引用以下论文:
@article{cold:2020, title = {COLD: Annotation scheme and evaluation data set for complex offensive language in English}, author = {Palmer, Alexis and Carr, Christine and Robinson, Melissa and Sanders, Jordan}, journal = {Journal of Linguistics and Computational Linguistics, Special Issue}, year = {2020}, volume={to appear}, number={to appear}, pages = {tbd} }



