soda-lmu/tweet-annotation-sensitivity-2
收藏Hugging Face2024-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/soda-lmu/tweet-annotation-sensitivity-2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了对推文中仇恨言论(HS)和冒犯性语言(OL)的注释,这些推文来自Davidson等人(2017)创建的语料库。数据集中的3000条推文在五种不同的实验条件下进行了注释,每种条件在注释任务结构上有所不同。此外,数据集还包含了注释者的人口统计信息。
提供机构:
soda-lmu
原始信息汇总
Tweet Annotation Sensitivity Experiment 2: Annotations in Five Experimental Conditions
描述
该数据集包含在五种实验条件下对仇恨言论(HS)和冒犯性语言(OL)的推文数据注释。推文数据采样自Davidson et al. (2017)创建的语料库。我们选择了3,000条推文进行注释。我们设计了五种实验条件,这些条件变化了注释任务结构,如下所示:
-
<font color= #871F78>条件A</font>:在一个屏幕上展示推文和三个选项:仇恨言论、冒犯性语言或两者都不是。注释者可以选择仇恨言论、冒犯性语言,或指示两者都不适用。
-
<font color= Blue>条件B</font>:第一个屏幕提示注释者指示推文是否包含仇恨言论。在下一个屏幕上,他们再次看到推文,并被问及是否包含冒犯性语言。
-
<font color= red>条件C</font>:类似于条件B,但颠倒了仇恨言论和冒犯性语言的顺序。
-
<font color=green>条件D</font>:注释者首先被要求为其分配的所有推文注释仇恨言论,然后被要求为同一组推文注释冒犯性语言。
-
条件E:与条件D相同,但首先进行冒犯性语言注释任务,然后进行仇恨言论注释任务。
我们于2022年11月至12月期间从众包平台Prolific招募了美国注释者。每位注释者最多注释50条推文。数据集还包含注释者的 demographic 信息。注释者在完成任务后获得超过美国联邦最低时薪的固定小时工资。
代码本
| 列名 | 描述 | 类型 |
|---|---|---|
| case_id | 案例ID | 整数 |
| duration_seconds | 连接任务的持续时间(秒) | 整数 |
| last_screen | 最后回答的问题 | 因子 |
| device | 设备类型 | 因子 |
| ethn_hispanic | 西班牙裔种族/民族 | 二进制 |
| ethn_white | 白人种族/民族 | 二进制 |
| ethn_afr_american | 非裔美国人种族/民族 | 二进制 |
| ethn_asian | 亚洲人种族/民族 | 二进制 |
| ethn_sth_else | 其他种族/民族 | 二进制 |
| ethn_prefer_not | 种族/民族选择不透露 | 二进制 |
| age | 年龄 | 整数 |
| education | 教育程度 | 因子 |
| english_fl | 英语为第一语言 | 二进制 |
| twitter_use | Twitter使用频率 | 因子 |
| socmedia_use | 社交媒体使用频率 | 因子 |
| prolific_hours | 过去一个月在Prolific平台的工作量(小时) | 整数 |
| task_fun | 任务感知:有趣 | 二进制 |
| task_interesting | 任务感知:有趣 | 二进制 |
| task_boring | 任务感知:无聊 | 二进制 |
| task_repetitive | 任务感知:重复 | 二进制 |
| task_important | 任务感知:重要 | 二进制 |
| task_depressing | 任务感知:压抑 | 二进制 |
| task_offensive | 任务感知:冒犯 | 二进制 |
| repeat_tweet_coding | 再次进行推文任务的可能性 | 因子 |
| repeat_hs_coding | 再次进行仇恨言论任务的可能性 | 因子 |
| target_online_harassment | 遭受网络仇恨行为 | 二进制 |
| target_other_harassment | 遭受其他仇恨行为 | 二进制 |
| party_affiliation | 党派身份 | 因子 |
| societal_relevance_hs | 仇恨言论的相关性感知 | 因子 |
| annotator_id | 注释者ID | 整数 |
| condition | 实验条件(A-E) | 因子 |
| tweet_batch | 批次中的推文ID | 因子 |
| hate_speech | 仇恨言论注释 | 逻辑 |
| offensive_language | 冒犯性语言注释 | 逻辑 |
| tweet_id | 推文ID | 整数 |
| orig_label_hs | 原始数据集中将推文注释为仇恨言论的人数 | 整数 |
| orig_label_ol | 原始数据集中将推文注释为冒犯性语言的人数 | 整数 |
| orig_label_ne | 原始数据集中将推文注释为两者都不是的人数 | 整数 |
| tweet_hashed | 用户名被哈希处理的推文 | 字符 |



