five

COLD-team/COLD

收藏
Hugging Face2022-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/COLD-team/COLD
下载链接
链接失效反馈
官方服务:
资源简介:
COLD数据集旨在帮助研究人员诊断和评估其自动仇恨言论检测系统。该语料库突出了四种不同类型的复杂冒犯性语言:侮辱性语言、回收的侮辱性语言、形容词名词化和距离化,以及非冒犯性文本。数据集包含从三个不同数据集中收集的推文,并由六名标注者进行标注,每个实例至少由三名不同的标注者标注。数据以.tsv文件格式提供,包含八个列,其中四个是信息列,四个是标注相关列。
提供机构:
COLD-team
原始信息汇总

COLD: Complex Offensive Language Dataset

数据集概述

  • 目的:用于诊断和评估自动仇恨言论检测系统。
  • 内容:包含四种复杂攻击性语言类型(侮辱、回收的侮辱、形容词名词化、语言距离)及非攻击性文本。
  • 来源:数据集由三个不同的数据集(Davidson et al, 2017; Waseem and Hovy, 2016; Robinson, 2017)的推文组成。
  • 标注:由6名标注者完成,每个实例至少由3名不同的标注者标注。

数据集版本

  • COLD-2016:用于《Journal of Linguistics and Computational Linguistics》论文中的分析和实验结果,包含2016个实例。

数据格式与标注

  • 文件类型:.tsv
  • 列信息
    • 信息性列
      1. ID - 原始数据集信息及实例ID
      2. Dataset - 实例来源的数据集标识
      3. Text - 实例文本内容
    • 多数投票列
      1. Off - 文本是否具有攻击性
      2. Slur - 文本中是否包含侮辱
      3. Nom - 文本中是否存在形容词名词化
      4. Dist - 文本中是否存在语言距离
    • 个体标注者列
      1. Off1/2/3 - 标注者对文本攻击性的判断
      2. Slur1/2/3 - 标注者对文本中侮辱的判断
      3. Nom1/2/3 - 标注者对文本中形容词名词化的判断
      4. Dist1/2/3 - 标注者对文本中语言距离的判断
    • 类别
      1. Cat - 根据多数投票结果推断的类别

联系方式

  • 如有疑问,请联系 carrc9953@gmail.com, alexis.palmer@unt.edu, 或 melissa.robinson@my.unt.edu。

引用信息

  • 使用此数据集时,请引用以下论文:

    @article{cold:2020, title = {COLD: Annotation scheme and evaluation data set for complex offensive language in English}, author = {Palmer, Alexis and Carr, Christine and Robinson, Melissa and Sanders, Jordan}, journal = {Journal of Linguistics and Computational Linguistics, Special Issue}, year = {2020}, volume={to appear}, number={to appear}, pages = {tbd} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作