ISCA-IUB/AntisemitismOnTwitter
收藏数据集卡片:Twitter/X上的反犹太主义数据集
数据集描述
数据集概述
ISCA项目通过使用标注门户网站编译了此数据集,用于标记推文为反犹太主义或非反犹太主义,以及其他标签。请注意,标注是基于实时数据进行的,包括图像和上下文,如线程。原始数据来源于annotationportal.com。
语言
英语
数据集结构
- TweetID: 表示推文ID。
- Username: 表示发布推文的用户的用户名。
- Text: 表示推文的完整文本(未经预处理)。
- CreateDate: 表示推文的创建日期。
- Biased: 表示我们的标注是否将推文标记为反犹太主义或非反犹太主义。
- Keyword: 表示查询中使用的关键词。关键词可以出现在文本中,包括提及的名称或用户名。
数据集创建
该数据集包含6,941条推文,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题。数据集是从这一时期具有相关关键词的代表性样本中抽取的。其中1,250条推文(18%)符合IHRA定义的反犹太主义信息。
标注
标注过程
我们考虑了推文的文本、图像、视频和链接,在其“自然”上下文中进行标注,包括线程。我们使用基于IHRA定义的详细标注指南,该定义已被30多个政府和国际组织认可和推荐,并经常用于监测和记录反犹太主义事件。我们将定义分为12个段落,每个段落涉及不同形式的反犹太主义和刻板印象。我们创建了一个在线标注工具(https://annotationportal.com),以使标注更简单、更一致,并减少错误,包括在记录标注过程中。该门户显示推文和一个可点击的标注表单,自动保存每个标注,包括标注每条推文所花费的时间。
标注者
所有标注者都熟悉该定义,并接受了测试样本的培训。他们至少参加过一门关于反犹太主义的学术课程或进行过反犹太主义研究。我们视他们为专家标注者。八位不同宗教和性别的专家标注者对18个样本进行了标注,每个样本由两位标注者在交替配置中进行标注。
使用数据集的考虑因素
数据集的社会影响
自动仇恨言论检测的主要挑战之一是缺乏涵盖广泛偏见和非偏见信息的、一致标注的数据集。我们提出了一种标注程序,解决了标注数据集的一些常见弱点。我们专注于Twitter上的反犹太主义言论,创建了一个包含6,941条推文的标注数据集,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题,通过抽取具有相关关键词的代表性样本来实现。我们的标注过程旨在严格应用一个常用的反犹太主义定义,迫使标注者指定定义的哪一部分适用,并允许他们在逐案基础上个人不同意该定义。标注那些指出反犹太主义、报告反犹太主义或与反犹太主义相关的推文(如大屠杀),但本身并非反犹太主义的推文,可以帮助减少自动检测中的误报。
附加信息
数据集策展人
Gunther Jikeli, Sameer Karali, Daniel Miehling, 和 Katharina Soemer
引用信息
Jikeli, Gunther, Sameer Karali, Daniel Miehling, 和 Katharina Soemer (2023): Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled Dataset of Tweets. https://arxiv.org/abs/2304.14599



