five

soda-lmu/tweet-annotation-sensitivity-2

收藏
Hugging Face2024-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/soda-lmu/tweet-annotation-sensitivity-2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了对推文中仇恨言论(HS)和冒犯性语言(OL)的注释,这些推文来自Davidson等人(2017)创建的语料库。数据集中的3000条推文在五种不同的实验条件下进行了注释,每种条件在注释任务结构上有所不同。此外,数据集还包含了注释者的人口统计信息。
提供机构:
soda-lmu
原始信息汇总

Tweet Annotation Sensitivity Experiment 2: Annotations in Five Experimental Conditions

描述

该数据集包含在五种实验条件下对仇恨言论(HS)和冒犯性语言(OL)的推文数据注释。推文数据采样自Davidson et al. (2017)创建的语料库。我们选择了3,000条推文进行注释。我们设计了五种实验条件,这些条件变化了注释任务结构,如下所示:

  • <font color= #871F78>条件A</font>:在一个屏幕上展示推文和三个选项:仇恨言论、冒犯性语言或两者都不是。注释者可以选择仇恨言论、冒犯性语言,或指示两者都不适用。

  • <font color= Blue>条件B</font>:第一个屏幕提示注释者指示推文是否包含仇恨言论。在下一个屏幕上,他们再次看到推文,并被问及是否包含冒犯性语言。

  • <font color= red>条件C</font>:类似于条件B,但颠倒了仇恨言论和冒犯性语言的顺序。

  • <font color=green>条件D</font>:注释者首先被要求为其分配的所有推文注释仇恨言论,然后被要求为同一组推文注释冒犯性语言。

  • 条件E:与条件D相同,但首先进行冒犯性语言注释任务,然后进行仇恨言论注释任务。

我们于2022年11月至12月期间从众包平台Prolific招募了美国注释者。每位注释者最多注释50条推文。数据集还包含注释者的 demographic 信息。注释者在完成任务后获得超过美国联邦最低时薪的固定小时工资。

代码本

列名 描述 类型
case_id 案例ID 整数
duration_seconds 连接任务的持续时间(秒) 整数
last_screen 最后回答的问题 因子
device 设备类型 因子
ethn_hispanic 西班牙裔种族/民族 二进制
ethn_white 白人种族/民族 二进制
ethn_afr_american 非裔美国人种族/民族 二进制
ethn_asian 亚洲人种族/民族 二进制
ethn_sth_else 其他种族/民族 二进制
ethn_prefer_not 种族/民族选择不透露 二进制
age 年龄 整数
education 教育程度 因子
english_fl 英语为第一语言 二进制
twitter_use Twitter使用频率 因子
socmedia_use 社交媒体使用频率 因子
prolific_hours 过去一个月在Prolific平台的工作量(小时) 整数
task_fun 任务感知:有趣 二进制
task_interesting 任务感知:有趣 二进制
task_boring 任务感知:无聊 二进制
task_repetitive 任务感知:重复 二进制
task_important 任务感知:重要 二进制
task_depressing 任务感知:压抑 二进制
task_offensive 任务感知:冒犯 二进制
repeat_tweet_coding 再次进行推文任务的可能性 因子
repeat_hs_coding 再次进行仇恨言论任务的可能性 因子
target_online_harassment 遭受网络仇恨行为 二进制
target_other_harassment 遭受其他仇恨行为 二进制
party_affiliation 党派身份 因子
societal_relevance_hs 仇恨言论的相关性感知 因子
annotator_id 注释者ID 整数
condition 实验条件(A-E) 因子
tweet_batch 批次中的推文ID 因子
hate_speech 仇恨言论注释 逻辑
offensive_language 冒犯性语言注释 逻辑
tweet_id 推文ID 整数
orig_label_hs 原始数据集中将推文注释为仇恨言论的人数 整数
orig_label_ol 原始数据集中将推文注释为冒犯性语言的人数 整数
orig_label_ne 原始数据集中将推文注释为两者都不是的人数 整数
tweet_hashed 用户名被哈希处理的推文 字符
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作