COLD-team/COLD

Name: COLD-team/COLD
Creator: COLD-team
Published: 2022-06-21 16:38:44
License: 暂无描述

Hugging Face2022-06-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/COLD-team/COLD

下载链接

链接失效反馈

官方服务：

资源简介：

COLD数据集旨在帮助研究人员诊断和评估其自动仇恨言论检测系统。该语料库突出了四种不同类型的复杂冒犯性语言：侮辱性语言、回收的侮辱性语言、形容词名词化和距离化，以及非冒犯性文本。数据集包含从三个不同数据集中收集的推文，并由六名标注者进行标注，每个实例至少由三名不同的标注者标注。数据以.tsv文件格式提供，包含八个列，其中四个是信息列，四个是标注相关列。

提供机构：

COLD-team

原始信息汇总

COLD: Complex Offensive Language Dataset

数据集概述

目的：用于诊断和评估自动仇恨言论检测系统。
内容：包含四种复杂攻击性语言类型（侮辱、回收的侮辱、形容词名词化、语言距离）及非攻击性文本。
来源：数据集由三个不同的数据集（Davidson et al, 2017; Waseem and Hovy, 2016; Robinson, 2017）的推文组成。
标注：由6名标注者完成，每个实例至少由3名不同的标注者标注。

数据集版本

COLD-2016：用于《Journal of Linguistics and Computational Linguistics》论文中的分析和实验结果，包含2016个实例。

数据格式与标注

文件类型：.tsv
列信息：
- 信息性列：
  1. ID - 原始数据集信息及实例ID
  2. Dataset - 实例来源的数据集标识
  3. Text - 实例文本内容
- 多数投票列：
  1. Off - 文本是否具有攻击性
  2. Slur - 文本中是否包含侮辱
  3. Nom - 文本中是否存在形容词名词化
  4. Dist - 文本中是否存在语言距离
- 个体标注者列：
  1. Off1/2/3 - 标注者对文本攻击性的判断
  2. Slur1/2/3 - 标注者对文本中侮辱的判断
  3. Nom1/2/3 - 标注者对文本中形容词名词化的判断
  4. Dist1/2/3 - 标注者对文本中语言距离的判断
- 类别：
  1. Cat - 根据多数投票结果推断的类别

联系方式

如有疑问，请联系 carrc9953@gmail.com, alexis.palmer@unt.edu, 或 melissa.robinson@my.unt.edu。

引用信息

使用此数据集时，请引用以下论文：

@article{cold:2020, title = {COLD: Annotation scheme and evaluation data set for complex offensive language in English}, author = {Palmer, Alexis and Carr, Christine and Robinson, Melissa and Sanders, Jordan}, journal = {Journal of Linguistics and Computational Linguistics, Special Issue}, year = {2020}, volume={to appear}, number={to appear}, pages = {tbd} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集