soda-lmu/tweet-annotation-sensitivity-2

Name: soda-lmu/tweet-annotation-sensitivity-2
Creator: soda-lmu
Published: 2024-04-24 15:27:41
License: 暂无描述

Hugging Face2024-04-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/soda-lmu/tweet-annotation-sensitivity-2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对推文中仇恨言论（HS）和冒犯性语言（OL）的注释，这些推文来自Davidson等人（2017）创建的语料库。数据集中的3000条推文在五种不同的实验条件下进行了注释，每种条件在注释任务结构上有所不同。此外，数据集还包含了注释者的人口统计信息。

提供机构：

soda-lmu

原始信息汇总

Tweet Annotation Sensitivity Experiment 2: Annotations in Five Experimental Conditions

描述

该数据集包含在五种实验条件下对仇恨言论（HS）和冒犯性语言（OL）的推文数据注释。推文数据采样自Davidson et al. (2017)创建的语料库。我们选择了3,000条推文进行注释。我们设计了五种实验条件，这些条件变化了注释任务结构，如下所示：

条件A：在一个屏幕上展示推文和三个选项：仇恨言论、冒犯性语言或两者都不是。注释者可以选择仇恨言论、冒犯性语言，或指示两者都不适用。
条件B：第一个屏幕提示注释者指示推文是否包含仇恨言论。在下一个屏幕上，他们再次看到推文，并被问及是否包含冒犯性语言。
条件C：类似于条件B，但颠倒了仇恨言论和冒犯性语言的顺序。
条件D：注释者首先被要求为其分配的所有推文注释仇恨言论，然后被要求为同一组推文注释冒犯性语言。
条件E：与条件D相同，但首先进行冒犯性语言注释任务，然后进行仇恨言论注释任务。

我们于2022年11月至12月期间从众包平台Prolific招募了美国注释者。每位注释者最多注释50条推文。数据集还包含注释者的 demographic 信息。注释者在完成任务后获得超过美国联邦最低时薪的固定小时工资。

代码本

列名	描述	类型
case_id	案例ID	整数
duration_seconds	连接任务的持续时间（秒）	整数
last_screen	最后回答的问题	因子
device	设备类型	因子
ethn_hispanic	西班牙裔种族/民族	二进制
ethn_white	白人种族/民族	二进制
ethn_afr_american	非裔美国人种族/民族	二进制
ethn_asian	亚洲人种族/民族	二进制
ethn_sth_else	其他种族/民族	二进制
ethn_prefer_not	种族/民族选择不透露	二进制
age	年龄	整数
education	教育程度	因子
english_fl	英语为第一语言	二进制
twitter_use	Twitter使用频率	因子
socmedia_use	社交媒体使用频率	因子
prolific_hours	过去一个月在Prolific平台的工作量（小时）	整数
task_fun	任务感知：有趣	二进制
task_interesting	任务感知：有趣	二进制
task_boring	任务感知：无聊	二进制
task_repetitive	任务感知：重复	二进制
task_important	任务感知：重要	二进制
task_depressing	任务感知：压抑	二进制
task_offensive	任务感知：冒犯	二进制
repeat_tweet_coding	再次进行推文任务的可能性	因子
repeat_hs_coding	再次进行仇恨言论任务的可能性	因子
target_online_harassment	遭受网络仇恨行为	二进制
target_other_harassment	遭受其他仇恨行为	二进制
party_affiliation	党派身份	因子
societal_relevance_hs	仇恨言论的相关性感知	因子
annotator_id	注释者ID	整数
condition	实验条件（A-E）	因子
tweet_batch	批次中的推文ID	因子
hate_speech	仇恨言论注释	逻辑
offensive_language	冒犯性语言注释	逻辑
tweet_id	推文ID	整数
orig_label_hs	原始数据集中将推文注释为仇恨言论的人数	整数
orig_label_ol	原始数据集中将推文注释为冒犯性语言的人数	整数
orig_label_ne	原始数据集中将推文注释为两者都不是的人数	整数
tweet_hashed	用户名被哈希处理的推文	字符

5,000+

优质数据集

54 个

任务类型

进入经典数据集